4月18日,第十屆聯想創新科技大會Tech World在上海舉行。聯想集團副總裁、中國基礎設施業務羣總經理陳振寬表示,聯想基於最全面的AI基礎設施產品組合以及最豐富的AI行業解決方案,加速了全球客戶的智能化轉型,同時在這場非贏不可的比賽和角逐中將竭盡所能,爲客戶提供縱橫智能化時代的萬全之策。
陳振寬稱,聯想是紮根於中國的高科技企業,引領了一個又一個的中國IT技術發展浪潮。
在通用計算領域,聯想的X86服務器可靠性連續9年第一,實現463項性能世界記錄;在科學計算領域,聯想連續9年實現中國HPC TOP 100 NO.1,助力中國在科學計算、仿真、氣象等前沿領域的創新突破;在人工智能1.0時代,聯想基於中國特色需求設計了完整AI基礎設施組合,並實現165個行業驗證落地的AI方案。
現如今,大模型的AI 2.0時代已經邁着大步走來。隨着AI模型參數的指數級增加、邁入千億、萬億級大關,大模型具備了超強的泛化、生成能力,促使人工智能進入更廣的應用場景和更深的業務流程當中,發揮更大的價值。
爲解決用戶面對的挑戰,聯想AI基礎設施聚焦三大領域。一是爲用戶匹配經過驗證優化的最佳算力,二是賦能用戶充分利用算力,提升計算效率。三是以先進的液冷技術幫助用戶節能增效且突破芯片散熱的瓶頸。
同時,陳振寬總結了聯想過去一年爲AI應用大潮創新的五大技術,包括智能匹配AI算力的智算魔方,針對GPU,AI集羣提效設計的先進算法,以及跨AI和HPC集羣充分共享算力的超級調度器。
算力匹配魔方:基於海量的硬件評測和AI算子算法集成工作, 聯想構建了AI場景與算法與集羣硬件三者匹配關係的算力魔方知識庫。立體魔方中的數千個交叉點中的每一個,代表一種場景和與之最匹配的算法和集羣配置。應用算力匹配魔方,用戶可以跳過選擇驗證數十種算法和近百種AI集羣配置的複雜過程,只需輸入場景和數據,算力魔方即可自動加載最優算法和調度最佳集羣配置。
挖掘GPU潛力的GPU內核態虛擬化技術:在AI推理和中小訓練中,AI子任務多以虛擬GPU承載,而在容器和調度層做GPU虛擬化和容器間數據隔離是目前業界較普遍的做法,這使得虛擬化和資源隔離的開銷造成約20%的GPU算力損耗。聯想研究院與高校研究機構多年合作開發在GPU驅動層進行虛擬化和資源管理,新的算法可以將虛擬化造成的GPU損耗降至<5%,極致情況降至<1%,大幅提升GPU利用率。
聯想集合通信庫:聯想在多年集羣網絡設計中積累了豐富的對大規模集羣網絡的拓撲優化手段,同時聯想研究院與高校研究機構合作建立了基於深層數學原理的集合通信優化算法。在千卡規模訓練集羣,採用集成了聯想集合通信庫的聯想異構智算平臺做管理調度,可提升網絡通信效率超過10%,集羣規模越大,效果越顯著。
高效AI斷點續訓技術:AI訓練故障頻發是常態,因此有必要在訓練前設置故障檢查點和備份,以備訓練因故障中斷時能提取備份做到從斷點續訓。聯想異構智算平臺在常規以外,深化了對軟、硬件的全面監控,優化了多級存儲備份架構和策略,更以多年積累的AI訓練故障預測的AI模型來預測斷點和提前優化備份,由此能將斷點續訓恢復時間縮減到分鐘級。
聯想AI與HPC異構集羣超級調度技術:HPC集羣部分會用到GPU節點,AI集羣絕大部分用GPU節點。 同時擁有HPC集羣和AI集羣的用戶希望在不同集羣間根據任務優先級和資源狀況共享寶貴的GPU節點資源。聯想異構智算平臺在AI和HPC調度之上架構了超級調度器,全局自動化管理不同類任務和調度異構資源,實現了資源動態共享。
以上這些就是聯想在AI基礎設施積累的三大能力和領先的五大技術創新,是聯想整合全球和本地研發智慧,潛心鑽研AI技術和應用發展趨勢,並深耕本地客戶特色需求的基礎上打造的。
大會上,陳振寬正式發佈了“聯想萬全異構智算平臺”,它集合了聯想在AI 2.0時代的IT基礎設施技術主張。AI技術正在高速發展,聯想萬全異構智算平臺也將佈局未來,將挑戰分鐘內的斷點續訓,持續優化超大規模集羣的通信算法,深入研究相變式液冷技術,並佈局模塊化液冷數據中心。這些技術將爲中國用戶提供更加強大、穩定、高效、綠色的智能算力。