華泰證券:國產模型廠商進入API“價格戰” 利好AI應用開發

發布 2024-6-11 上午07:39
© Reuters.  華泰證券:國產模型廠商進入API“價格戰” 利好AI應用開發
BIDU
-
0700
-
BABA
-

智通財經APP獲悉,華泰證券發佈研報稱,5月6日,DeepSeek發佈最新MoE模型DeepSeek-V2(32K上下文),刷新了模型API定價:輸入¥1元/M tokens、輸出¥2元/M tokens。緊接着,智譜、阿里(09988)、百度(09888)、騰訊(00700)、訊飛(002230.SZ)等廠商均宣佈旗下模型API降價,部分降價幅度高達100%。華泰證券深入拆解了各家API產品矩陣,發現降價的主要是輕量級模型,對於高併發B端用戶或影響不大。華泰證券認爲,API降價將吸引更多的ISV開發AI相關應用,有望提高Super App出現概率,建議關注算力和應用相關公司。

華泰證券主要觀點如下:

降價以入門級輕量API爲主,可以從技術優化和生態搶佔來解釋

降價廠商中,智譜、百度和訊飛主要降價產品爲輕量版;阿里和騰訊則將旗下全部模型進行降價,降價幅度不等。字節爲首次定價,價格較低。可以看出,降價幅度和範圍較大的主要是互聯網企業,其資源更加豐富。分析降價原因,一方面,DeepSeek V2證明了,確實可以通過注意力機制優化,大大減少所需緩存的量,降低成本和提高效率。另一方面,即使沒有技術上的降價邏輯,通過降價手段吸引開發者,目前看仍是搶佔生態的重要手段。

從技術層面降低模型推理成本,核心在於優化KV cache

目前,大模型的長文本支持能力已成爲趨勢。在推理長文本時,需要首先將文本預填充到GPU的HBM中,然後再解碼出token。其中預填充速度主要受GPU計算能力影響,解碼速度受HBM帶寬影響。當文本很長時,KV cache將佔用HBM相當大的空間,導致用戶併發性下降,且解碼耗時更長。用戶併發性下降,還將帶來新的問題,即需要從HBM上“卸載”暫時不用的KV cache,再“加載”下一個用戶的KV cache,帶來新的耗時。因此,降低KV cache是優化關鍵。

典型優化方法:壓縮KV cache,或採用全局KV cache

該行研究了近期DeepSeek V2和微軟的YOCO典型的KV cache壓縮方法,代表兩種流派。DeepSeek V2引入多頭隱注意力(MLA)機制,不再緩存全部的KV,而是用隱向量來壓縮KV,與Transformer原始的多頭注意力相比,KV cache可以減少90%以上。微軟的YOCO則將Decoder架構一切爲二,下半部分負責用高效的注意力機制產生全局KV cache,上半部分則直接使用全局KV cache,不再需要額外計算,也大大降低了緩存量。

模型降價有望利好算力和應用,建議關注相關產業鏈公司

該行認爲,模型降價將吸引更多的開發者開發AI應用,或進一步提振算力需求,提升Super App出現概率,建議關注:1)AI服務器相關公司;2)AI應用相關公司。

最新評論

風險聲明: 金融工具及/或加密貨幣交易涉及高風險,包括可損失部分或全部投資金額,因此未必適合所有投資者。加密貨幣價格波幅極大,並可能會受到金融、監管或政治事件等多種外部因素影響。保證金交易會增加金融風險。
交易金融工具或加密貨幣之前,你應完全瞭解與金融市場交易相關的風險和代價、細心考慮你的投資目標、經驗水平和風險取向,並在有需要時尋求專業建議。
Fusion Media 謹此提醒,本網站上含有的數據資料並非一定即時提供或準確。網站上的數據和價格並非一定由任何市場或交易所提供,而可能由市場作價者提供,因此價格未必準確,且可能與任何特定市場的實際價格有所出入。這表示價格只作參考之用,而並不適合作交易用途。 假如在本網站內交易或倚賴本網站上的資訊,導致你遭到任何損失或傷害,Fusion Media 及本網站上的任何數據提供者恕不負責。
未經 Fusion Media 及/或數據提供者事先給予明確書面許可,禁止使用、儲存、複製、展示、修改、傳輸或發佈本網站上含有的數據。所有知識產權均由提供者及/或在本網站上提供數據的交易所擁有。
Fusion Media 可能會因網站上出現的廣告,並根據你與廣告或廣告商產生的互動,而獲得廣告商提供的報酬。
本協議以英文為主要語言。英文版如與香港中文版有任何歧異,概以英文版為準。
© 2007-2025 - Fusion Media Limited保留所有權利