💎 挖掘低估值寶藏股立即開始

華泰證券:國內AI視頻生成模型新突破 持續看好視頻等多模態發展前景

發布 2024-5-14 上午09:36
© Reuters.  華泰證券:國內AI視頻生成模型新突破 持續看好視頻等多模態發展前景
688068
-

智通財經APP獲悉,華泰證券發佈研報稱,北京生數科技有限公司聯合清華大學發佈了中國首個長時長、高一致性、高動態性視頻大模型Vidu。整體來看, Vidu生成結果的動作幅度、畫面一致性均處於國內領先水準。從視頻模型橫向比較看,Vidu快速進化,與Sora差距不斷縮小,持續看好視頻等多模態發展前景。

華泰證券主要觀點如下:

全球AI大模型持續迭代,持續看好視頻等多模態發展前景

今年以來,全球AI大模型端都持續迭代升級,包括海外的Sora、Llama3等,國內的Kimi、崑崙天工AI、階躍星辰等。4月27日,北京生數科技有限公司聯合清華大學發佈了中國首個長時長、高一致性、高動態性視頻大模型Vidu。行業的發展進度有望不斷催化傳媒相關板塊的發展,華泰證券看好:1)AI視頻大模型依賴多樣化訓練數據,高質量視頻素材庫價值凸顯;2)AI大模型助力應用場景發展。

Vidu:國內AI視頻生成模型新突破

Vidu採用了團隊原創的Diffusion與Transformer融合的架構U-ViT,能夠一鍵生成長達16秒、分辨率達到1080P的高清視頻內容,其擁有豐富的想象力,能夠模擬真實物理世界,並具備多鏡頭生成、時空一致性高等特點。核心團隊來源於清華大學人工智能團隊,首席科學家爲清華人工智能研究院副院長朱軍。公司的多模態大模型爲全棧自研,能夠融合文本、圖像、3D、視頻等多模態信息。除文生視頻外,公司在文生圖、3D生成等多模態能力上均有所造詣。

Vidu快速進化,與Sora差距不斷縮小

2024年1月,生數團隊實現4秒視頻的生成,已可以達到Pika、Runway的效果,至3月底實現8秒視頻生成,4月實現16秒視頻生成,在3個月內生成時長提升至4倍,且據4月27日中關村論壇中生數領軍人朱軍的發言,Vidu會以更快的速度迭代,與Sora差距將越來越小。Vidu生成視頻的運動幅度較大。除Sora外,目前文/圖生視頻較難做到讓人物做出複雜動作,因此爲了保證畫面畸變最小,視頻生成的策略爲選擇小幅度的運動,較難設計複雜動作,難以處理場景和人物的一致性問題。Vidu在保證了時空一致性的前提下運動幅度較大。分辨率趕上第一梯隊,但仍爲固定比例尺寸。

Vidu模型使用U-ViT架構,多模態、效果好、成本低

在U-ViT前,Diffusion模型中的主流主幹(backbone)一直爲基於CNN的U-Net。U-ViT是生數科技團隊設計的一種簡單通用的、基於ViT的架構,使用Diffusion生成圖像,打響了擴散模型中CNN被Transformer取代的第一槍。模型首先對輸入圖像進行分割處理(分割爲patch),與時間和條件一道表示爲token後通過Embedding層,隨後經過Transformer Block後輸出爲token,並通過一個線性層轉爲圖塊,最後通過一個可選的3X3卷積層輸出爲最終結果。此外,U-ViT成本優勢大幅領先,主要得益於ViT架構的訓練成本較低。

風險提示:競爭加劇,模型發展進度低於預期,政策監管風險等。

最新評論

風險聲明: 金融工具及/或加密貨幣交易涉及高風險,包括可損失部分或全部投資金額,因此未必適合所有投資者。加密貨幣價格波幅極大,並可能會受到金融、監管或政治事件等多種外部因素影響。保證金交易會增加金融風險。
交易金融工具或加密貨幣之前,你應完全瞭解與金融市場交易相關的風險和代價、細心考慮你的投資目標、經驗水平和風險取向,並在有需要時尋求專業建議。
Fusion Media 謹此提醒,本網站上含有的數據資料並非一定即時提供或準確。網站上的數據和價格並非一定由任何市場或交易所提供,而可能由市場作價者提供,因此價格未必準確,且可能與任何特定市場的實際價格有所出入。這表示價格只作參考之用,而並不適合作交易用途。 假如在本網站內交易或倚賴本網站上的資訊,導致你遭到任何損失或傷害,Fusion Media 及本網站上的任何數據提供者恕不負責。
未經 Fusion Media 及/或數據提供者事先給予明確書面許可,禁止使用、儲存、複製、展示、修改、傳輸或發佈本網站上含有的數據。所有知識產權均由提供者及/或在本網站上提供數據的交易所擁有。
Fusion Media 可能會因網站上出現的廣告,並根據你與廣告或廣告商產生的互動,而獲得廣告商提供的報酬。
本協議以英文為主要語言。英文版如與香港中文版有任何歧異,概以英文版為準。
© 2007-2024 - Fusion Media Limited保留所有權利