智通財經APP獲悉,國盛證券發佈研報點評AI 時代的網絡需求與創新方向。該團隊認爲大模型時代,模型體積和單卡上限之間的差距迅速拉大,業界轉而尋求多服務器集羣來解決模型訓練問題,這構成了 AI 時代網絡“上位”的基礎;現如今,“降本”、“開放”和算力規模之間的平衡將是網絡創新的主要議題。
網絡需求從何而來?
進入大模型時代,模型體積和單卡上限之間的差距迅速拉大,業界轉而尋求多服務器集羣來解決模型訓練問題,這也構成了 AI 時代網絡“上位”的基礎。同時,相較於過去單純用於傳輸數據,如今網絡更多的用於同步顯卡間的模型參數,對於網絡的密度,容量都提出了更高要求。
日益龐大的模型體積:(1)訓練耗時=訓練數據規模 x 模型參數量/計算速率(2)計算速率=單設備計算速率 x 設備數 x 多設備並行效率。當下,業界對於訓練數據規模和參數的雙重追求下,唯有加速提升計算效率,才能縮短訓練耗時,而單設備計算速率的更新有其週期和限制,因此如何利用網絡儘可能的擴大“設備數”和“並行效率”直接決定了算力。
多卡同步的複雜溝通:在大模型訓練過程中,將模型切分至單卡後,每經過一次計算,單卡之間都需要進行對齊(Reduce、Gather 等),同時,在英偉達的通信原語體系 NCCL 中,All-to-All(即所有節點都可以互相獲取值並對齊)的操作較爲常見,因此對網絡之間的傳輸和交換提出了更高的要求。
愈發昂貴的故障成本:大模型的訓練往往持續數月以上,而中間一旦發生中斷,需要回到幾小時或者幾天前的斷點進行重新訓練。而整個網絡中某一個軟硬件環節的故障,或者過高的延遲,都有可能導致中斷。更多的中斷,代表着落後的進度和愈發高昂的成本。現代的 AI 網絡,已經漸漸發展成堪比飛機、航母等的人類系統工程能力的結晶。
網絡創新將走向何方?
硬件隨需求而動,經過兩年,全球算力投資規模已經膨脹到數百億美元級別,而模型參數的擴張,巨頭的慘烈廝殺依然激烈。現如今,“降本”、“開放”和算力規模之間的平衡將是網絡創新的主要議題。
通信介質的更迭:光、銅與硅是人類傳輸的三大介質,在 AI 時代,光模塊追求更高速率的同時,也邁出了 LPO、LRO、硅光等降本之路。在當前時間點,銅纜憑藉性價比,故障率等因素佔領了機櫃內連接。而 Chiplet,Wafer-scaling 等新半導體技術,則正在加速探索硅基互聯的上限。
網絡協議的競爭:片間通信協議與顯卡強綁定,如英偉達的 NV-LINK,AMD的 Infinity Fabric 等等,其決定了單臺服務器或者單個算力節點的能力上限,是非常殘酷的巨頭戰場。而 IB 與以太網的鬥爭則是節點間通信的主旋律。
網絡架構的變化:當下節點間網絡架構普遍採用葉脊架構,葉脊具有便捷、簡單、穩定等特點。但隨着單個集羣節點數增多,葉脊稍顯冗餘的架構會給超大集羣帶來較大的網絡成本。當下,如 Dragonfly 架構,rail-only 架構等新架構有望成爲面向下一代超大集羣的演進方向。
投資建議:通信系統核心環節:中際旭創、新易盛、天孚通信、工業富聯、英維克、滬電股份。通信系統創新環節:長飛光纖、太辰光、源傑科技、盛科通信-U、寒武紀、德科立。
風險提示:AI 需求不及預期,Scaling law 失效,行業競爭加劇。