智通財經APP獲悉,天風證券發佈研究報告稱,OpenAI發佈了最新文生視頻大模型SORA,可以生成1分鐘長視頻,效果顯著,在生成的視頻細節,內容一致性和指令遵循能力獨樹一幟;SORA模型在訓練中將不同類型視覺素材統一爲時空LatentPatch,採用Diffusion-transformer結構並大規模訓練,再次展現“暴力美學”;SORA模型已具備了一定的湧現能力,雖然也存在“幻覺問題”,但文生視頻的GPT-3時刻已來。
視頻生成模型迎來技術突破,看好AI板塊尤其是AI多模塊的機會,建議關注:(1)AI多模態:萬興科技(300624.SZ)等。(2)AI應用:科大訊飛(002230.SZ)等。(3)AI算力:華爲鏈+海光信息(688041.SH)等。
▍天風證券主要觀點如下:
OpenAI發佈了最新文生視頻大模型SORA,可以生成1分鐘長視頻,效果顯著,在生成的視頻細節,內容一致性和指令遵循能力獨樹一幟
2月16日,OpenAI首次對外公佈了SORA文生視頻模型,SORA模型可以直接輸出長達60秒的視頻,並且包含高度細緻的背景、複雜的多角度鏡頭,以及富有情感的多個角色。相比較而言,RunwayGen2、Pika等AI視頻工具,都還在突破幾秒內的連貫性,而OpenAI,已經達到了史詩級的紀錄。OpenAI目前已經邀請了一支專業的創意人士測試,用於反饋其在專業環境中的實用性。
SORA模型在訓練中將不同類型視覺素材統一爲時空LatentPatch,採用Diffusion-transformer結構並大規模訓練,再次展現“暴力美學”
從technicalreport窺探技術路徑,OpenAI在文生視頻領域再次展現“暴力美學”,SORA在模型結構上使用了DiffusionTransformer結構,採用了大規模的訓練,在數據上將圖片和視頻統一壓縮轉換爲時空LatentPatches並作爲transformer輸入,而這一步也使得模型能夠在不同分辨率、持續時間和寬高比的視頻/圖像數據上進行訓練,同時爲了提高模型的理解能力,SORA使用了DALL-E3模型中的re-captioning技術,訓練了一個caption模型爲視頻數據生成文字字幕。
SORA模型已具備了一定的湧現能力,雖然也存在“幻覺問題”,但文生視頻的GPT-3時刻已來
SORA模型現在可用於視頻生成,圖片生成,視頻編輯、視頻鏈接和視頻前後拓展等,未來有望重塑影視/動畫/自媒體等諸多視頻生產行業,同時SORA還展現出了一定的湧現能力,使其能夠從物理世界模擬人、動物和環境的某些方面,包括3D連續,物體持續和long-range的連貫性,預計未來SORA也會逐步進化,如同GPT3到4一樣有更強的能力,或許文生視頻的GPT-3時刻已經到來。
風險提示:
文生視頻模型實際效果不及預期、國內算力進展不及預期、文生視頻場景落地不及預期。