每日經濟(ji)新聞(wen) 2025-06-17 13:55:32
日前,華為發布的(de)昇(sheng)(sheng)騰384超節點已開始發貨,該超節點由(you)384顆昇(sheng)(sheng)騰AI芯片組成集群,可提(ti)供高達300PFLOPs的(de)密集BF16算力,性能(neng)接(jie)近英(ying)偉達GB200NVL72系統的(de)兩倍(bei)。華為專家表示,這是通過系統工程思維(wei)實現的(de)“突圍(wei)”,目前眾多頭部客戶已采(cai)購(gou)并投(tou)入核心大模型訓(xun)練。昇(sheng)(sheng)騰384超節點還解決(jue)了通信傳輸、散熱等難題,并構建了基于中(zhong)國標準(zhun)的(de)架構。
每(mei)經(jing)記者(zhe)|王晶 每(mei)經(jing)編(bian)輯|馬子卿
“昇(sheng)騰算(suan)力(li)到(dao)底(di)能(neng)不能(neng)給大家(jia)底(di)氣和信(xin)心,有些人將信(xin)將疑,甚(shen)至認為(wei)昇(sheng)騰訓練不出先進的(de)大模型。”華(hua)為(wei)專(zhuan)家(jia)開場的(de)這句話,揭示出人們對國產AI(人工智能(neng))算(suan)力(li)的(de)焦慮:在美國芯(xin)片(pian)禁令的(de)陰影下,這支國產算(suan)力(li)艦隊(dui)究竟能(neng)否(fou)突(tu)破算(suan)力(li)封鎖、重構AI產業格局(ju)?
答案正(zheng)隨著(zhu)盤古Pro MoE模型(xing)、盤古Ultra MoE模型(xing)、昇騰384超節點等各種實(shi)踐的落地(di)而變得清晰。
近日,記者從一位華(hua)(hua)為專家處(chu)獲悉(xi),華(hua)(hua)為發(fa)布的昇騰384超(chao)節(jie)點(dian)已經開(kai)始(shi)發(fa)貨,這不僅是目前(qian)業界規模最(zui)大的超(chao)節(jie)點(dian),更是一項技(ji)術突破(po):華(hua)(hua)為將384顆昇騰AI芯(xin)片連接在一起組成(cheng)了(le)集(ji)群,通過(guo)全對等高(gao)速互(hu)聯的架構,基于系(xi)統(tong)工程(cheng)的方法,對計算、內存、通信(xin)的極致優化(hua)調(diao)度,可(ke)提(ti)供高(gao)達300 PFLOPs的密(mi)集(ji)BF16算力,該性能表現接近英偉達GB200 NVL72系(xi)統(tong)的兩倍。
這引(yin)出一(yi)個關鍵問題:在單芯片工藝(yi)暫時落后的情況下(xia),昇(sheng)騰(teng)是如何實現算力超越的?
“集群”絕非(fei)簡單(dan)的(de)“芯片(pian)堆疊”,而是華(hua)(hua)為(wei)在(zai)極端壓力下(xia),以系統工程思維進(jin)行的(de)一次“突圍”。“華(hua)(hua)為(wei)內部有個算力會戰,把華(hua)(hua)為(wei)云(yun)、模型、底座、芯片(pian)、硬件工程、基礎軟(ruan)件的(de)人集結(jie)在(zai)一起,深度(du)協同。打(da)造復雜(za)(za)、先進(jin)的(de)超節點系統,需(xu)要通(tong)過這(zhe)樣的(de)環境和機制,把華(hua)(hua)為(wei)幾(ji)十年積累的(de)‘大雜(za)(za)燴’的(de)能力整合(he)在(zai)一起。”華(hua)(hua)為(wei)專家說(shuo)道。
幾(ji)乎在昇騰加(jia)速研發的(de)同時,美國對(dui)華芯片(pian)出口(kou)管制持續加(jia)碼。今年4月,美國芯片(pian)制造商英(ying)偉達發布通知(zhi)稱,美國政府(fu)于(yu)(yu)4月9日(ri)告知(zhi),公司(si)H20芯片(pian)出口(kou)到(dao)中國需要許(xu)可證,此后(hou)又于(yu)(yu)4月14日(ri)告知(zhi),這些規(gui)定將無限期實施。據悉,這一新規(gui)將影響英(ying)偉達共計約55億(yi)美元(yuan)的(de)季度費用(yong),涉(she)及(ji)H20的(de)庫存、采購(gou)承諾和相關儲備。
外部環(huan)境急劇收緊下,以昇騰為代表(biao)的國產算力(li)正不斷(duan)突(tu)破,其戰(zhan)略意(yi)義遠超商業價值本身。
人(ren)工(gong)智能(neng)的浪潮席卷全球(qiu),巨量的模型(xing)訓練與實時推(tui)理需求(qiu)對算力提出了前(qian)所未有(you)的要求(qiu)。在此領域,英偉達(da)憑借其CUDA生態和(he)強(qiang)大的GPU(圖形處(chu)理單(dan)元)單(dan)卡(ka)性能(neng),長(chang)期占據統治地位,其最新的GB200 NVL72系(xi)統集成(cheng)了72塊Blackwell GPU,單(dan)柜(ju)算力驚人(ren)。
國產算力(li)陣營中,昇騰無疑是(shi)具有實力(li)的代表之一。
2018年10月,華(hua)為全(quan)聯接大會正式發布(bu)首款(kuan)采(cai)用(yong)華(hua)為自研達芬奇架構的(de)AI芯(xin)(xin)片(pian)昇騰910與昇騰310。其中,昇騰310是(shi)SoC(系統級芯(xin)(xin)片(pian))小芯(xin)(xin)片(pian),和人(ren)(ren)們(men)的(de)手機芯(xin)(xin)片(pian)差(cha)不多,只有指甲蓋那么大;昇騰910是(shi)大芯(xin)(xin)片(pian),和人(ren)(ren)們(men)的(de)掌(zhang)心差(cha)不多大,主要面向云端高性(xing)能計算(suan)。
2019年昇(sheng)騰(teng)芯片(pian)正式投(tou)入商用,華(hua)為還推出了昇(sheng)騰(teng)AI計算架構(gou),包括(kuo)昇(sheng)騰(teng)處理器、昇(sheng)騰(teng)AI加速模塊和昇(sheng)騰(teng)AI開發(fa)環境,初(chu)步形成AI計算解決方案。截至(zhi)目前,昇(sheng)騰(teng)計算產業(ye)已發(fa)展(zhan)為包括(kuo)昇(sheng)騰(teng)系列芯片(pian)、硬件、CANN(異構(gou)計算架構(gou))、AI計算框架、開發(fa)工具鏈等全產業(ye)鏈的體系。
不過(guo),受限于先進制程的獲(huo)取(qu),單(dan)顆(ke)昇騰(teng)(teng)芯片的算力約為英偉達Blackwell GPU的三分(fen)之一。“過(guo)去客戶用昇騰(teng)(teng),并不認為昇騰(teng)(teng)很先進,有的是因(yin)為被美(mei)國斷供,被迫用昇騰(teng)(teng)。”專家坦誠(cheng)介紹的這(zhe)個情況,事實上,也是中國算力突圍最真實的起(qi)點。
轉折正在發生。昇騰384超節點的(de)發布與交付,標(biao)志著昇騰通過(guo)系統級(ji)創新(xin)實現了算力能(neng)效的(de)躍遷,其(qi)意(yi)義(yi)正如英偉(wei)達CEO(首席(xi)執行(xing)官)黃仁勛(xun)所表(biao)達的(de),“從技術(shu)參數看(kan),華為的(de)CloudMatrix 384超節點,性(xing)能(neng)上超越了英偉(wei)達”。
華(hua)為(wei)專家(jia)透露(lu),“目前,眾多(duo)頭部客(ke)(ke)(ke)戶(hu)已經采購了昇騰,部分客(ke)(ke)(ke)戶(hu)已將其投入(ru)核心大模型訓練(lian)。并且在華(hua)為(wei)首次、密集披露(lu)圍繞昇騰訓練(lian)和(he)推理的(de)一系列技(ji)術白皮書(shu)后,更多(duo)的(de)客(ke)(ke)(ke)戶(hu)主(zhu)動聯系我們做技(ji)術交流。”為(wei)幫(bang)助(zhu)客(ke)(ke)(ke)戶(hu)用好昇騰,華(hua)為(wei)還組(zu)建了由中(zhong)高級專家(jia)構成的(de)“小靈巧突擊隊”,深(shen)入(ru)客(ke)(ke)(ke)戶(hu)現場(chang),為(wei)關(guan)鍵信息基礎(chu)設(she)施(shi)行業的(de)客(ke)(ke)(ke)戶(hu)提供支持(chi),確保(bao)昇騰算(suan)力發揮(hui)最大價值(zhi)。
然而(er),要讓384張芯片協同作戰,必須解決一(yi)些致命(ming)難題,比如通信(xin)傳(chuan)輸、散熱等。
當前,大模(mo)型發展呈(cheng)現參(can)數與(yu)效率交替演(yan)進(jin)的(de)態勢(shi)。一(yi)方面,Scaling Law(規模(mo)化法則)不斷推動模(mo)型能(neng)力突(tu)破(po)極限;另一(yi)方面,以(yi)DeepSeek(深(shen)度求索(suo))為代表的(de)創新架構(gou)與(yu)工程技(ji)術,正加速模(mo)型能(neng)力在千行萬業的(de)落地應用(yong)。
在此背景下(xia),MoE(混合(he)專(zhuan)(zhuan)家模(mo)型(xing))成為主流模(mo)型(xing)結構(gou),其復(fu)雜的(de)(de)混合(he)并(bing)(bing)(bing)行(xing)(xing)策略帶來(lai)巨(ju)大挑(tiao)戰,TP(張量(liang)(liang)并(bing)(bing)(bing)行(xing)(xing))、SP(序(xu)列并(bing)(bing)(bing)行(xing)(xing))、EP(專(zhuan)(zhuan)家并(bing)(bing)(bing)行(xing)(xing))單次通信量(liang)(liang)高(gao)達GB級且難以(yi)掩蓋。隨著并(bing)(bing)(bing)行(xing)(xing)規模(mo)持續擴大,傳統服(fu)務器跨機(ji)帶寬已成為訓練(lian)的(de)(de)核心阻礙,亟(ji)須計算架構(gou)的(de)(de)創新升級以(yi)適配未來(lai)模(mo)型(xing)發展。
傳統服務(wu)器依(yi)賴以太網絡實現跨(kua)機(ji)(ji)互(hu)聯,通信帶(dai)寬較低。實踐(jian)表明,當TP、SP或EP等分布式策略的混合并行域超過8卡時,跨(kua)機(ji)(ji)通信帶(dai)寬便成為(wei)性能(neng)(neng)瓶頸,導致系統性能(neng)(neng)大(da)幅下降。
對此,華為昇騰超節點打破了以(yi)CPU為中心(xin)的馮諾依曼架(jia)構(gou),而是建立了自有(you)標準(zhun)的“全對等互(hu)聯架(jia)構(gou)”,憑借高速總線(xian)互(hu)聯技術(shu),把總線(xian)從(cong)服務器內(nei)部,擴展(zhan)到整機柜,甚至跨機柜。
“西(xi)方是繼承發展(zhan),任總(指華(hua)為(wei)創(chuang)始(shi)人任正非)形象地(di)比喻(yu)為(wei)‘百(bai)衲衣’,就是衣服破了(le)以(yi)后不斷地(di)打補丁,協(xie)議不同,互(hu)通(tong)需(xu)要轉換(huan),有(you)(you)效載荷(he)會變(bian)小。我們(men)(men)不會完全跟在(zai)西(xi)方標(biao)(biao)準(zhun)的后面修修補補,我們(men)(men)內(nei)部(bu)重新定義了(le)對等(deng)架構的互(hu)聯總線,統(tong)一了(le)所有(you)(you)的通(tong)信協(xie)議,提升了(le)有(you)(you)效載荷(he),并且與外部(bu)可以(yi)是標(biao)(biao)準(zhun)的接口互(hu)通(tong),打造了(le)基于(yu)中國標(biao)(biao)準(zhun)的‘愛(ai)馬(ma)仕’。”華(hua)為(wei)專家說(shuo)道。
此(ci)外,為實現超大規模集群,華為還(huan)采用跨機(ji)架縱向擴(kuo)展(zhan)方案,并為此(ci)引入光(guang)通(tong)信(xin)技術。在(zai)昇騰(teng)384超節(jie)點中,共(gong)使用了3168根(gen)光(guang)纖和6912個400G光(guang)模塊(kuai)。光(guang)模塊(kuai)具有高帶寬和高速率的優(you)勢,損耗低,適合更(geng)長距離傳輸。
除了(le)硬件創新外,超高(gao)密度芯片(pian)集成也(ye)帶來了(le)散(san)熱(re)難題。“大量(liang)的芯片(pian)堆到一(yi)起(qi)有(you)巨大的熱(re)量(liang),熱(re)散(san)不(bu)(bu)掉系統就會(hui)癱瘓,我們超節點是用液冷散(san)熱(re),效率很高(gao)。針(zhen)對一(yi)體機和(he)不(bu)(bu)具備液冷條件的機房,也(ye)有(you)高(gao)效的風冷散(san)熱(re)方案。”華(hua)為專家說(shuo)道(dao)。
他還強調:“熱(re)(re)(re)是一門科學(xue),散(san)熱(re)(re)(re)更是一門復雜的(de)工(gong)程能(neng)力。散(san)熱(re)(re)(re)首先要把熱(re)(re)(re)導(dao)出來(lai),導(dao)熱(re)(re)(re)墊緊貼(tie)芯(xin)片的(de)表面,其導(dao)熱(re)(re)(re)效(xiao)率至關(guan)重要,核心(xin)是材(cai)料(liao)科學(xue),我們設(she)計(ji)了精妙的(de)微結(jie)構(gou)材(cai)料(liao),適合液態(tai)或氣(qi)態(tai),以實現更高效(xiao)的(de)熱(re)(re)(re)傳導(dao)。”
技(ji)術突破(po)的(de)背后,是華(hua)(hua)為(wei)在(zai)基礎(chu)研究上的(de)積(ji)淀。據悉,大概(gai)10年前華(hua)(hua)為(wei)就在(zai)海外設立了研究所(suo),專門研究熱理論和熱工(gong)(gong)程,而像這樣(yang)的(de)基礎(chu)技(ji)術實(shi)(shi)驗室,華(hua)(hua)為(wei)在(zai)全球有86個,并(bing)且(qie)還有8個材料實(shi)(shi)驗室,這種“用數學補(bu)物(wu)理”“非(fei)摩爾(er)補(bu)摩爾(er)”“用系統(tong)補(bu)單點”等(deng)核(he)心思想在(zai)業務所(suo)依(yi)賴(lai)的(de)基礎(chu)理論、材料、制備工(gong)(gong)藝、軟件工(gong)(gong)具鏈等(deng)方面構(gou)建起(qi)系統(tong)工(gong)(gong)程創新的(de)能力(li)。
如果說硬件性能的突破(po)是基礎,那么(me)繁榮(rong)的軟(ruan)件生(sheng)態就是昇騰能否贏得開(kai)發者真心、支撐產業(ye)長期繁榮(rong)的關鍵。
科技公司決定將其系統從英偉達CUDA軟(ruan)件(jian)框架開發的訓練代碼移植到華為CANN(Compute Architecture for Neural Networks)平臺,面臨移植成本高、周(zhou)期長、調試復雜等痛(tong)點。事實上,英偉達的CUDA系統像Windows一樣成熟,全球90%的AI框架都基于它開發。
華為(wei)專家也坦言:“生態方面(mian)我們劣于英偉達CUDA。”但他表示,近兩年情況有所好轉。“業界的模型從各種(zhong)各樣的模型逐漸收(shou)斂到Transformer架構,以(yi)前(qian)的算子有幾(ji)萬(wan)個,加上衍生的算子有十萬(wan)以(yi)上,而(er)現在主流(liu)的模型聚焦(jiao)到Transformer、Diffusion以(yi)后,核(he)心的算子大(da)概就幾(ji)百個。”
華(hua)為(wei)快速補齊了(le)(le)高質量(liang)的(de)基(ji)(ji)礎算(suan)(suan)子,并向(xiang)頭部客(ke)戶深度開放,客(ke)戶可基(ji)(ji)于(yu)這些基(ji)(ji)礎算(suan)(suan)子開發(fa)定制自己的(de)算(suan)(suan)子和(he)算(suan)(suan)法,并適配(pei)(pei)自己的(de)模(mo)型和(he)應用(yong),大幅加(jia)速了(le)(le)模(mo)型適配(pei)(pei)進程(cheng)。這次圍繞昇騰的(de)技術披露,既是(shi)開放高性能(neng)基(ji)(ji)礎算(suan)(suan)子,也賦能(neng)昇騰客(ke)戶如何高效開發(fa)他們(men)需(xu)要(yao)的(de)高性能(neng)算(suan)(suan)子。
當生態根基日益穩固,昇騰要(yao)把兼容性作為下一步重要(yao)的事情,使(shi)其(qi)在(zai)更(geng)廣泛(fan)的場景得(de)以應用。當前(qian),許多企業采用“混(hun)合策略”:在(zai)英偉(wei)達平(ping)臺上進(jin)行部分(fen)訓練(lian)(lian),同時將(jiang)推理負載或增量訓練(lian)(lian)遷移(yi)至(zhi)昇騰平(ping)臺。這種路徑既降低(di)遷移(yi)風險,又為國產(chan)替代(dai)積累經驗。對(dui)此(ci),昇騰也提供(gong)了Day0遷移(yi)和一鍵部署等工具(ju)鏈,支撐客(ke)戶高效(xiao)遷移(yi)到昇騰平(ping)臺上。
客(ke)觀來(lai)看(kan),集群也面臨諸如能耗(hao)、占比(bi)面積大等(deng)問(wen)題。昇騰384超節點在超越英偉達(da)NVL72的(de)同時,功耗(hao)也達(da)到后者的(de)4.1倍,每FLOP功耗(hao)高出2.5倍。
不(bu)過,功(gong)耗缺陷在國(guo)內并(bing)(bing)非(fei)限制(zhi)性(xing)因素。資(zi)(zi)訊機(ji)構SemiAnalysis指(zhi)出,過去(qu)十(shi)年(nian)間,西方致力于將主要依賴煤炭的電(dian)(dian)力基礎設施轉向更環(huan)保(bao)的天然氣和可再(zai)生能(neng)源(yuan)發電(dian)(dian),并(bing)(bing)提(ti)高人均能(neng)源(yuan)使用效(xiao)率,而中(zhong)國(guo)則因生活方式提(ti)升和持(chi)續大(da)規模(mo)投(tou)資(zi)(zi),面臨巨大(da)的發電(dian)(dian)需求。中(zhong)國(guo)能(neng)源(yuan)體(ti)系不(bu)僅有煤炭驅動(dong),并(bing)(bing)且太(tai)陽能(neng)、水電(dian)(dian)、風電(dian)(dian)裝機(ji)量(liang)均居全球首位,當前更在核電(dian)(dian)部(bu)署領域(yu)占據領先地位。因此,電(dian)(dian)力相對充裕而無需受限于能(neng)耗約束。
但同時,華(hua)(hua)為也關注到能耗是(shi)一個(ge)永久的(de)問題。“未來是(shi)人(ren)工(gong)智(zhi)能的(de)時代(dai),AI是(shi)最普遍的(de)計算,將是(shi)無處不在的(de)。我們會持續通過技術(shu)的(de)進步,來改進能源(yuan)的(de)消耗,構筑AI時代(dai)的(de)核心(xin)競(jing)爭力,實現(xian)可持續發展。”華(hua)(hua)為專家(jia)說(shuo)道。
可以(yi)看到,在(zai)算(suan)力(li)主(zhu)權爭奪的(de)戰場上,華為已經開辟(pi)了一條不同于西方的(de)創新路(lu)徑——不簡單(dan)追求單(dan)點技術的(de)路(lu)線,而是“以(yi)面積換(huan)能力(li)、以(yi)堆(dui)疊增容量、以(yi)集群擴(kuo)規模(mo),通過超節(jie)點的(de)系統工程創新,實(shi)現(xian)規模(mo)算(suan)力(li)的(de)領先和效能的(de)最優。”這也是目前中國算(suan)力(li)的(de)現(xian)實(shi)突圍路(lu)徑。
事實上,昇騰(teng)384超節點(dian)的出現,不僅構建了英(ying)偉達(da)之外的可靠(kao)第二選擇,也打破了國產算力“無法訓練大(da)模型”的質疑。
封面圖片來源:視覺中國-VCG211478193393
如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像(xiang),違者(zhe)必究。
讀者熱線(xian):4008890008
特(te)別提(ti)醒(xing):如果我們使用了您的圖片,請作者與本站聯系索取稿(gao)酬(chou)。如您不希望作品(pin)(pin)出(chu)現在本(ben)站(zhan),可聯系(xi)我們要求撤下您的作品(pin)(pin)。
歡迎關注每日(ri)經濟新聞APP