智通財經APP獲悉,信達證券發佈研報稱,展望2025年,Blackwell系列的推出有望打開推理市場,各類AI終端有望掀起持續的機遇。此外,AI產業的閉環有望刺激雲廠商資本開支,雲端共振共同發展。建議關注英偉達產業鏈傳統的核心廠商,如ODM、PCB廠商等。另一方面,B系列帶來的新興賽道如銅連接、AEC賽道也值得關注。
Blackwell衆多技術突破,整體以機櫃形式交貨
GB200機櫃有NVL36和NVL72兩種規格。GB200 NVL36配置中,一個機架有36個GPU和9個雙GB200計算節點(以托盤爲單位)。GB200 NVL72在一個機架中配置了72個GPU/18個雙GB200計算節點,或在兩個機架中配置了72個GPU,每個機架上配置了18個單GB200計算節點。每個GPU具有 2080億個晶體管,採用專門定製的臺積電4NP工藝製造。所有Blackwell產品均採用雙倍光刻極限尺寸的裸片,通過10 TB/s的片間互聯技術連接成一塊統一的GPU。此外,B系列還有衆多突破,支持4位浮點(FP4)AI。內存可以支持的新一代模型的性能和大小翻倍,同時保持高精度。
互聯方面,第五代NVLink技術實現高速互聯。NVIDIA NVLink交換機芯片能以驚人的1.8TB/s互連速度爲多服務器集羣提供支持。採用NVLink的多服務器集羣可以在計算量增加的情況下同步擴展GPU通信,因此NVL72可支持的GPU吞吐量是單個8卡GPU系統的9倍。此外,Blackwell架構在安全AI、解壓縮引擎、可靠性等方面也實現了不同程度的創新和突破。
Blackwell或成推理市場的鑰匙,FP4精度潛力較大
目前模型參數變大的速度放緩,但模型推理和訓練的運算量仍高速增長,尤其在o1引入強化學習之後,post scaling law開始發力。英偉達在發佈H100架構時,便就FP8數據精度做出一定討論。
業界曾長期依賴 FP16 與 FP32 訓練,但這種高精度的運算,在大模型LLM中受到了一定阻礙:由於模型參數等因素導致運算驟升,可能導致數據溢出。英偉達提出的FP8數據精度因爲佔用更少的比特,能提供更多運算量。以NVIDIA H100 Tensor Core GPU爲例,相較 FP16 和 BF16,FP8 的峯值性能能夠實現接近翻倍。FP4精度是FP8的繼承和發展,對推理市場的打開有重要推動。GB200推出了FP4,FP4支持由於降低了數據精度,性價比相比H100幾乎倍增。
根據Semianalysis的數據,GB200 NVL72在FP4精度下,FLOPS相比H100可以最高提高405%(注:H100最低以FP8計算),由此帶來性價比提升。目前,FP4的運算已經可以在大模型運算中廣泛應用,且已有研究表明網絡可以使用FP4精度進行訓練而不會有顯著的精度損失。此外,由於模型推理中不需要對模型參數進行更新,相對訓練對於精度的敏感性有所下降,因此B系列相對於訓練,在推理領域會更有優勢。B系列引入FP4精度後,大模型在雲側和端側的協同都有望實現躍升,這也是看好接下來的端側市場的原因之一。
風險因素:宏觀經濟下行風險;下游需求不及預期風險;中美貿易摩擦加劇風險。