智通財經APP獲悉,華泰證券發佈研報稱,北京生數科技有限公司聯合清華大學發佈了中國首個長時長、高一致性、高動態性視頻大模型Vidu。整體來看, Vidu生成結果的動作幅度、畫面一致性均處於國內領先水準。從視頻模型橫向比較看,Vidu快速進化,與Sora差距不斷縮小,持續看好視頻等多模態發展前景。
華泰證券主要觀點如下:
全球AI大模型持續迭代,持續看好視頻等多模態發展前景
今年以來,全球AI大模型端都持續迭代升級,包括海外的Sora、Llama3等,國內的Kimi、崑崙天工AI、階躍星辰等。4月27日,北京生數科技有限公司聯合清華大學發佈了中國首個長時長、高一致性、高動態性視頻大模型Vidu。行業的發展進度有望不斷催化傳媒相關板塊的發展,華泰證券看好:1)AI視頻大模型依賴多樣化訓練數據,高質量視頻素材庫價值凸顯;2)AI大模型助力應用場景發展。
Vidu:國內AI視頻生成模型新突破
Vidu採用了團隊原創的Diffusion與Transformer融合的架構U-ViT,能夠一鍵生成長達16秒、分辨率達到1080P的高清視頻內容,其擁有豐富的想象力,能夠模擬真實物理世界,並具備多鏡頭生成、時空一致性高等特點。核心團隊來源於清華大學人工智能團隊,首席科學家爲清華人工智能研究院副院長朱軍。公司的多模態大模型爲全棧自研,能夠融合文本、圖像、3D、視頻等多模態信息。除文生視頻外,公司在文生圖、3D生成等多模態能力上均有所造詣。
Vidu快速進化,與Sora差距不斷縮小
2024年1月,生數團隊實現4秒視頻的生成,已可以達到Pika、Runway的效果,至3月底實現8秒視頻生成,4月實現16秒視頻生成,在3個月內生成時長提升至4倍,且據4月27日中關村論壇中生數領軍人朱軍的發言,Vidu會以更快的速度迭代,與Sora差距將越來越小。Vidu生成視頻的運動幅度較大。除Sora外,目前文/圖生視頻較難做到讓人物做出複雜動作,因此爲了保證畫面畸變最小,視頻生成的策略爲選擇小幅度的運動,較難設計複雜動作,難以處理場景和人物的一致性問題。Vidu在保證了時空一致性的前提下運動幅度較大。分辨率趕上第一梯隊,但仍爲固定比例尺寸。
Vidu模型使用U-ViT架構,多模態、效果好、成本低
在U-ViT前,Diffusion模型中的主流主幹(backbone)一直爲基於CNN的U-Net。U-ViT是生數科技團隊設計的一種簡單通用的、基於ViT的架構,使用Diffusion生成圖像,打響了擴散模型中CNN被Transformer取代的第一槍。模型首先對輸入圖像進行分割處理(分割爲patch),與時間和條件一道表示爲token後通過Embedding層,隨後經過Transformer Block後輸出爲token,並通過一個線性層轉爲圖塊,最後通過一個可選的3X3卷積層輸出爲最終結果。此外,U-ViT成本優勢大幅領先,主要得益於ViT架構的訓練成本較低。
風險提示:競爭加劇,模型發展進度低於預期,政策監管風險等。