智通財經APP獲悉,中信證券發佈研報稱,2024年12月18日,字節跳動在2024火山引擎FORCE原動力大會·冬上發佈豆包視覺理解模型,豆包·視覺理解的輸入價格爲每千tokens 0.003元,比行業平均價格降低85%,帶領視覺理解模型輸入成本正式走進釐時代。中信證券認爲,豆包·視覺理解模型在內容識別能力、理解和推理能力以及視覺描述能力上已能實現優秀水平,且該模型較低的調用價格有望加速視覺處理能力在AI終端上的調用,看好產業鏈相關環節的投資機會。
中信證券主要觀點如下:
字節跳動重磅發佈視覺理解模型,輸入價格比行業平均價格降低85%。
2024年12月18日,字節跳動在2024火山引擎FORCE原動力大會·冬上發佈豆包視覺理解模型。據字節跳動,豆包·視覺理解模型的輸入價格爲每千tokens 0.003元(相當於一塊錢可以處理284張720P的圖片),比行業平均價格降低85%(作爲對比,Claude 3.5Sonnet-200k、qwen-vl-max-32k、GPT-4o-128k每千tokens輸入價格分別爲0.021/0.02/0.0175元),帶領視覺理解模型輸入成本正式走進釐時代。我們認爲,豆包·視覺理解模型在內容識別能力、理解和推理能力以及視覺描述能力上已能實現優秀水平。其中,1)在內容識別能力方面,不僅可以識別出圖像中的物體類別、形狀等基本要素,還能理解物體之間的關係、空間佈局以及場景的整體含義。2)在理解和推理能力方面,不僅能更好地識別內容,還能根據所識別的文字和圖像信息進行復雜的邏輯計算。3)在視覺描述能力方面,可以基於圖像信息,更細膩地描述圖像呈現的內容,還能進行多種文體的創作。我們認爲,豆包視覺理解模型較低的調用價格有望加速視覺處理能力在AI終端上的調用,看好產業鏈相關環節的投資機會。
視覺理解模型有望拓展大模型的場景邊界,看好豆包·視覺理解模型在智能終端、醫療、安防、教育、物流等行業的應用潛力。
視覺是人類獲取信息的主要方式,因此具備視覺理解能力的模型能夠更好地模擬人類的感知和認知過程,從而爲AI提供一種更直接、更自然的與人類交互的方式。據豆包大模型團隊,根據圖像信息,豆包·視覺理解模型可以完成諸多複雜的邏輯計算任務,包括解微積分題、分析論文圖表、診斷真實代碼問題等挑戰性任務。通過豆包·視覺理解模型,用戶可以同時輸入文本和圖像相關的問題,模型經綜合理解可給出準確的回答,有望實現在智能終端、醫療、安防、教育、物流等應用場景的廣泛應用。聚焦智能終端領域,豆包大模型已服務50+的AI應用場景,覆蓋超過了3億個終端設備,來自智能終端的豆包大模型日均tokens調用量從5月到12月增長了100倍。我們認爲,視覺理解能力將極大拓展大模型的場景邊界,爲大模型的場景使用打開天花板。
視覺理解模型應用加速,AI眼鏡有望核心受益。
我們認爲,AI智能眼鏡是最接近人類視覺感知的設備,在視覺理解模型的加持下,AI眼鏡具備感知能力,有助於深入瞭解用戶意圖,提供更精準貼切的智能服務。我們看好視覺理解模型應用對AI眼鏡芯片及存儲的需求拉動。
1)SoC:目前AI眼鏡的SoC主要包括2類方案,①集成方案:將ISP集成進SoC;②外掛方案:SoC上外掛一顆ISP。參考ISP在手機SoC中外掛/集成的過程,我們認爲AI眼鏡主控芯片方案初期會兩者並存(即獨立ISP初期存在起量機遇),長期有望走向集成方案(不排除部分追求超高圖像處理效果的產品再外掛一顆ISP)。從價值量上看,Rayban Meta中使用的高通AR1 Gen1(4nm),成本約55美元;此外,紫光展銳的W517已應用於百度AI眼鏡等產品中,我們估算價值量約10+美金。單看ISP芯片,目前市場上的低功耗ISP芯片像素不高,單價與安防領域ISP類似(接近1美金),後續升級爲低功耗高像素產品後,ISP的ASP有望提升。
2)存儲:目前AI眼鏡中存儲芯片主要包含2部分,①內嵌:將一顆NOR Flash集成進SoC,類似AI耳機SoC搭載方式;②外掛:採用eMCP或ePoP方案,如Rayban Meta中使用2GB LPDDR4+32GB的eMMC, 價值量約11美金,硬件成本佔比7%,僅次於SoC。我們認爲SoC內嵌NOR Flash主要用於存儲AI眼鏡的系統固件以及藍牙模塊驅動等硬件組件的驅動程序並可存儲視覺處理算法及語言交互模型,模型複雜度提升下存儲容量相較於AI耳機有所升級,但將受限於NOR存儲密度性價比,其容量提升具有天花板,更高量級的模型算法、應用程序、用戶數據將存儲於外掛的eMCP或ePoP中,未來容量及ASP有望提升。
風險因素:
需求不及預期,技術迭代不及預期,市場競爭加劇等。