🔥 InvestingPro 優質AI精選股票現在折扣高達50%獲取優惠

天風證券:文生視頻的GPT-3時刻已來

發布 2024-2-23 上午11:29
© Reuters.  天風證券:文生視頻的GPT-3時刻已來
600116
-
SZI
-
002153
-
000063
-

智通財經APP獲悉,天風證券發佈研究報告稱,OpenAI發佈了最新文生視頻大模型SORA,可以生成1分鐘長視頻,效果顯著,在生成的視頻細節,內容一致性和指令遵循能力獨樹一幟;SORA模型在訓練中將不同類型視覺素材統一爲時空LatentPatch,採用Diffusion-transformer結構並大規模訓練,再次展現“暴力美學”;SORA模型已具備了一定的湧現能力,雖然也存在“幻覺問題”,但文生視頻的GPT-3時刻已來。

視頻生成模型迎來技術突破,看好AI板塊尤其是AI多模塊的機會,建議關注:(1)AI多模態:萬興科技(300624.SZ)等。(2)AI應用:科大訊飛(002230.SZ)等。(3)AI算力:華爲鏈+海光信息(688041.SH)等。

▍天風證券主要觀點如下:

OpenAI發佈了最新文生視頻大模型SORA,可以生成1分鐘長視頻,效果顯著,在生成的視頻細節,內容一致性和指令遵循能力獨樹一幟

2月16日,OpenAI首次對外公佈了SORA文生視頻模型,SORA模型可以直接輸出長達60秒的視頻,並且包含高度細緻的背景、複雜的多角度鏡頭,以及富有情感的多個角色。相比較而言,RunwayGen2、Pika等AI視頻工具,都還在突破幾秒內的連貫性,而OpenAI,已經達到了史詩級的紀錄。OpenAI目前已經邀請了一支專業的創意人士測試,用於反饋其在專業環境中的實用性。

SORA模型在訓練中將不同類型視覺素材統一爲時空LatentPatch,採用Diffusion-transformer結構並大規模訓練,再次展現“暴力美學”

從technicalreport窺探技術路徑,OpenAI在文生視頻領域再次展現“暴力美學”,SORA在模型結構上使用了DiffusionTransformer結構,採用了大規模的訓練,在數據上將圖片和視頻統一壓縮轉換爲時空LatentPatches並作爲transformer輸入,而這一步也使得模型能夠在不同分辨率、持續時間和寬高比的視頻/圖像數據上進行訓練,同時爲了提高模型的理解能力,SORA使用了DALL-E3模型中的re-captioning技術,訓練了一個caption模型爲視頻數據生成文字字幕。

SORA模型已具備了一定的湧現能力,雖然也存在“幻覺問題”,但文生視頻的GPT-3時刻已來

SORA模型現在可用於視頻生成,圖片生成,視頻編輯、視頻鏈接和視頻前後拓展等,未來有望重塑影視/動畫/自媒體等諸多視頻生產行業,同時SORA還展現出了一定的湧現能力,使其能夠從物理世界模擬人、動物和環境的某些方面,包括3D連續,物體持續和long-range的連貫性,預計未來SORA也會逐步進化,如同GPT3到4一樣有更強的能力,或許文生視頻的GPT-3時刻已經到來。

風險提示:

文生視頻模型實際效果不及預期、國內算力進展不及預期、文生視頻場景落地不及預期。

最新評論

風險聲明: 金融工具及/或加密貨幣交易涉及高風險,包括可損失部分或全部投資金額,因此未必適合所有投資者。加密貨幣價格波幅極大,並可能會受到金融、監管或政治事件等多種外部因素影響。保證金交易會增加金融風險。
交易金融工具或加密貨幣之前,你應完全瞭解與金融市場交易相關的風險和代價、細心考慮你的投資目標、經驗水平和風險取向,並在有需要時尋求專業建議。
Fusion Media 謹此提醒,本網站上含有的數據資料並非一定即時提供或準確。網站上的數據和價格並非一定由任何市場或交易所提供,而可能由市場作價者提供,因此價格未必準確,且可能與任何特定市場的實際價格有所出入。這表示價格只作參考之用,而並不適合作交易用途。 假如在本網站內交易或倚賴本網站上的資訊,導致你遭到任何損失或傷害,Fusion Media 及本網站上的任何數據提供者恕不負責。
未經 Fusion Media 及/或數據提供者事先給予明確書面許可,禁止使用、儲存、複製、展示、修改、傳輸或發佈本網站上含有的數據。所有知識產權均由提供者及/或在本網站上提供數據的交易所擁有。
Fusion Media 可能會因網站上出現的廣告,並根據你與廣告或廣告商產生的互動,而獲得廣告商提供的報酬。
本協議以英文為主要語言。英文版如與香港中文版有任何歧異,概以英文版為準。
© 2007-2024 - Fusion Media Limited保留所有權利