智通財經APP獲悉,華泰證券發佈研究報告稱,繼OpenAI的文生視頻大模型Sora的發佈後,谷歌推出AI可交互視頻模型Genie, Genie由潛在動作模型、視頻分詞器、動態預測模型三大核心組件組成,可通過文本、合成圖像、照片、草圖等多種方式,描述和生成無數個動作“自主可控”的交互式環境。Genie的推出意味着產業AI應用持續迭代升級,預計隨着海內外科技大廠AI模型的不斷進步,AI應用端有望加速落地,產業迎來持續催化。Genie在傳媒應用領域更適配可交互的遊戲場景,建議積極把握相關投資機會。
華泰證券主要觀點如下:
Genie可交互可推理可模擬,解鎖“自主可控”的虛擬世界
Genie是一個110億參數的基礎世界模型,特點主要體現在:
1)可交互:相較於Sora、Runway等模型,Genie生成的內容具備可交互屬性,即用戶可通過文本提示對所生成虛擬環境中的角色動作逐幀進行操控,使用戶能與生成的虛擬世界進行交互。
2)可推理:基於潛在動作模型、視頻分詞器、動態模型,Genie不僅能理解並推理每對幀之間的潛在動作,還能對視頻的下一幀進行預測,並生成符合運動規律的序列幀。3)可模擬:由於在模擬機器人動作和學習物理規律方面表現出色,Genie能通過短視頻模擬物體的動態變化來訓練多功能智能體,如機械臂。
技術底座由ViT構建,適配於遊戲/機器人等應用場景
技術方面,Genie區別於Sora最大的特點體現在:核心組件基於空間時間的Vision Transformer (ViT)構建,這種特殊的Transformer可以用於處理視頻等具有時間和空間維度的數據,底層數據庫則基於大量遊戲視頻建立。
應用方面,Genie場景更適配遊戲及機器人等。1)遊戲:Genie以用戶提供的現有圖片爲起點,解析視頻角色,以補充視頻幀的方式生成角色動作輸出動態畫面,包括交互性的遊戲環境,讓用戶具有參與感和體驗感,使用過程本身即可被看作是一種遊戲。2)機器人:Genie可以將學習的潛在動作應用於真實的人類設計環境中,爲實現通用智能體提供了新的視角和方法。
風險提示:競爭加劇風險,行業監管風險,模型技術進展不及預期等。