智通財經APP獲悉,華泰證券發佈研報稱,5月6日,DeepSeek發佈最新MoE模型DeepSeek-V2(32K上下文),刷新了模型API定價:輸入¥1元/M tokens、輸出¥2元/M tokens。緊接着,智譜、阿里(09988)、百度(09888)、騰訊(00700)、訊飛(002230.SZ)等廠商均宣佈旗下模型API降價,部分降價幅度高達100%。華泰證券深入拆解了各家API產品矩陣,發現降價的主要是輕量級模型,對於高併發B端用戶或影響不大。華泰證券認爲,API降價將吸引更多的ISV開發AI相關應用,有望提高Super App出現概率,建議關注算力和應用相關公司。
華泰證券主要觀點如下:
降價以入門級輕量API爲主,可以從技術優化和生態搶佔來解釋
降價廠商中,智譜、百度和訊飛主要降價產品爲輕量版;阿里和騰訊則將旗下全部模型進行降價,降價幅度不等。字節爲首次定價,價格較低。可以看出,降價幅度和範圍較大的主要是互聯網企業,其資源更加豐富。分析降價原因,一方面,DeepSeek V2證明了,確實可以通過注意力機制優化,大大減少所需緩存的量,降低成本和提高效率。另一方面,即使沒有技術上的降價邏輯,通過降價手段吸引開發者,目前看仍是搶佔生態的重要手段。
從技術層面降低模型推理成本,核心在於優化KV cache
目前,大模型的長文本支持能力已成爲趨勢。在推理長文本時,需要首先將文本預填充到GPU的HBM中,然後再解碼出token。其中預填充速度主要受GPU計算能力影響,解碼速度受HBM帶寬影響。當文本很長時,KV cache將佔用HBM相當大的空間,導致用戶併發性下降,且解碼耗時更長。用戶併發性下降,還將帶來新的問題,即需要從HBM上“卸載”暫時不用的KV cache,再“加載”下一個用戶的KV cache,帶來新的耗時。因此,降低KV cache是優化關鍵。
典型優化方法:壓縮KV cache,或採用全局KV cache
該行研究了近期DeepSeek V2和微軟的YOCO典型的KV cache壓縮方法,代表兩種流派。DeepSeek V2引入多頭隱注意力(MLA)機制,不再緩存全部的KV,而是用隱向量來壓縮KV,與Transformer原始的多頭注意力相比,KV cache可以減少90%以上。微軟的YOCO則將Decoder架構一切爲二,下半部分負責用高效的注意力機制產生全局KV cache,上半部分則直接使用全局KV cache,不再需要額外計算,也大大降低了緩存量。
模型降價有望利好算力和應用,建議關注相關產業鏈公司
該行認爲,模型降價將吸引更多的開發者開發AI應用,或進一步提振算力需求,提升Super App出現概率,建議關注:1)AI服務器相關公司;2)AI應用相關公司。