7月25日,摩爾線程在世界人工智能大會(WAIC 2025)開幕前夕舉行技術(shù)分享會。會上,摩爾線程創(chuàng)始人兼CEO張建中表示,將以系統(tǒng)級技術(shù)創(chuàng)新與工程化能力打造用于生產(chǎn)智能的“AI工廠”。在他看來,“AI工廠”,如同芯片晶圓廠的制程升級,是一個(gè)系統(tǒng)性、全方位的變革,需要實(shí)現(xiàn)從底層芯片架構(gòu)創(chuàng)新、到集群整體架構(gòu)的優(yōu)化,再到軟件算法調(diào)優(yōu)和資源調(diào)度系統(tǒng)的全面升級。
AI工廠的生產(chǎn)效率取決于加速計(jì)算通用性、單芯片有效算力、單節(jié)點(diǎn)效率、集群效率、集群穩(wěn)定性,這五大元素相互配合,缺一不可。與之相對應(yīng),摩爾線程以全功能GPU、MUSA架構(gòu)、MUSA軟件棧、KUAE集群、零中斷五大技術(shù),滿足AI工廠對生產(chǎn)效率的要求。
張建中在技術(shù)分享會上介紹摩爾線程高效AI工廠打造方案
為何要打造“AI工廠”?
全球前沿模型“智力”正迅猛增長。模型產(chǎn)業(yè)競爭激烈,迭代速度愈來愈快。全球代表性模型的迭代周期,從5—6個(gè)月逐漸縮減到1個(gè)月,甚至近期每周都有新的模型智能水平超越行業(yè)既有模型。以人類智力水平100分為標(biāo)準(zhǔn),DeepSeek V3在2024年12月推出時(shí),評分為46分;今年5月推出的DeepSeek R1,智力水平已經(jīng)能夠達(dá)到68分。在不到半年的時(shí)間內(nèi),DeepSeek智能水平提升了50%以上。
這種高頻迭代不僅體現(xiàn)在大型語言模型(LLM)上,還同步擴(kuò)展至多模態(tài)模型、語音模型、世界模型等前沿模型領(lǐng)域。這些模型在性能、效率和應(yīng)用場景上實(shí)現(xiàn)的指數(shù)級突破,不僅推動了AI從專用領(lǐng)域向通用智能的跨越,其快速迭代的特性更對新一代高性能人工智能計(jì)算基礎(chǔ)設(shè)施提出了迫切需求。
而訓(xùn)練具有高智能水平的模型,首先要算力足夠高、效率足夠高,才可以成為有效的算力。
張建中在主題演講中表示,為應(yīng)對生成式AI爆發(fā)式增長下的大模型訓(xùn)練效率瓶頸,摩爾線程旨在通過系統(tǒng)級創(chuàng)新,將全功能GPU加速平臺的強(qiáng)大潛能,轉(zhuǎn)化為工程級的訓(xùn)練效率與可靠性,為AGI時(shí)代打造生產(chǎn)先進(jìn)模型的“超級工廠”。
相較于海外行業(yè)頭部企業(yè)代表,我國萬卡以上算力集群搭建仍處于追趕狀態(tài)。對于我國AI算力行業(yè)而言,部署規(guī)模更大、高效高可靠的大規(guī)模算力集群,仍是贏得國際競爭的重要技術(shù)路線。
何以提升單芯片有效算力?
算力芯片是AI工廠的技術(shù)基座。如果算力芯片不夠通用、性能不夠強(qiáng),效率不夠高,AI工廠的地基就不夠牢。芯片運(yùn)算效率高低取決于芯片架構(gòu)、驅(qū)動性能、算子優(yōu)化程度等多維因素。
在實(shí)際應(yīng)用中,芯片算力很少能夠達(dá)到理論峰值算力,實(shí)際運(yùn)行算力與產(chǎn)品設(shè)計(jì)理論算力之間存在差值。而好的芯片架構(gòu),應(yīng)該像一個(gè)優(yōu)秀的管理者一樣,通過調(diào)度使所有的資源“忙”起來。
記者注意到,摩爾線程正在以多種方式提升芯片實(shí)際應(yīng)用算力。
摩爾線程在WAIC 2025展示全功能GPU在不同場景中的應(yīng)用實(shí)例
MUSA(Meta-computing Unified System Architecture,即元計(jì)算統(tǒng)一架構(gòu))是摩爾線程自研架構(gòu),其核心理念是——要做多引擎可配置的統(tǒng)一系統(tǒng)架構(gòu)。
首先是多引擎,體現(xiàn)在單顆GPU芯片上同時(shí)支持AI計(jì)算、圖形渲染、物理仿真和科學(xué)計(jì)算、超高清編解碼技術(shù),目前國內(nèi)只有以摩爾線程為代表的少數(shù)GPU廠商具備全功能能力。
其次,該架構(gòu)采用統(tǒng)一的MUSA編程接口,提供統(tǒng)一的API。這樣一來,開發(fā)者采用一套編程指令集就能驅(qū)動在MUSA架構(gòu)之下的多種算力引擎。
為了更好地調(diào)動存算資源,摩爾線程自主研發(fā)的加速引擎——張量計(jì)算引擎(TCE)和張量訪存引擎(TME)。前者將大大小小各種不同的復(fù)雜結(jié)構(gòu)高效組合起來,同時(shí)具備高精度累加器,能夠降低小數(shù)累入損失。后者用以充分發(fā)揮存儲的效率,支持Img2Col、矩陣轉(zhuǎn)置,能夠加速前、后處理。
即便是國際GPU頭部企業(yè),也仍然存在通信任務(wù)占用計(jì)算資源的問題。而將原本可用于計(jì)算的處理器用于通信,會損失運(yùn)算效率。為解決這一問題,摩爾線程開發(fā)了ACE(異步通信引擎),能夠?qū)崿F(xiàn)異步DMA搬移,同時(shí)不占用計(jì)算核的資源和訪存帶寬,減少了15%的計(jì)算資源損耗;內(nèi)嵌同步機(jī)制,能夠提高跨引擎協(xié)同性能;采用多種訪存地址計(jì)算模式,提高搬移效率。
不僅如此,在計(jì)算層面,摩爾線程的AI加速系統(tǒng)全面支持INT8/FP8/FP16/BF16/TF32等多種混合精度計(jì)算。作為國內(nèi)首批實(shí)現(xiàn)FP8算力量產(chǎn)的GPU廠商,其FP8技術(shù)通過快速格式轉(zhuǎn)換、動態(tài)范圍智能適配和高精度累加器等創(chuàng)新設(shè)計(jì),在保證計(jì)算精度的同時(shí),將Transformer計(jì)算性能提升約30%。
何以實(shí)現(xiàn)高效節(jié)點(diǎn)、集群算力?
軟件生態(tài)被視為芯片企業(yè)的“護(hù)城河”。摩爾線程著力建設(shè)的MUSA軟件棧正成為其全功能GPU性能發(fā)揮的有力支撐。
基于推理場景對Kernel延時(shí)敏感的現(xiàn)狀,MUSA的驅(qū)動和運(yùn)行時(shí)庫,能夠幫助用戶實(shí)現(xiàn)Kernel launch開銷縮減:通過軟硬協(xié)同,核函數(shù)啟動延遲降低至業(yè)界平均水平的50%;近千次的計(jì)算和通信任務(wù)下發(fā)開銷,由近千次優(yōu)化為單次,GPU等待時(shí)間大大縮減;借助引擎間依賴解析技術(shù),任務(wù)流之間的依賴解析延時(shí)可大幅降低至1.5μs,優(yōu)于業(yè)界頭部算力卡。
MUSA算子庫提升了芯片計(jì)算效率
算子庫的效率直接關(guān)乎分布式集群的訓(xùn)練效率。
當(dāng)前,MUSA能夠提供三大算子庫:極致性能muDNN、易用的MUTLASS、MUSA AI Tensor Engine開源推理算子庫。
其中,muDNN是一款極致性能的開箱即用標(biāo)準(zhǔn)算子庫,完整覆蓋常見的前向和反向算子。能夠支持完整的XMMA,支持Tensor Core全精度及所有量化模式,以及常用的神經(jīng)網(wǎng)絡(luò)算子操作。當(dāng)前,業(yè)內(nèi)算子矩陣乘法的效率大部分可以做到90%以上,摩爾線程muDNN矩陣乘法算子效率可達(dá)到98%。國際一流廠商Flash Attention算子效率約為75%,而muDNN的Flash Attention能夠達(dá)到95%。
MUTLASS高性能的線性代數(shù)模板庫,可極大降低在MUSA環(huán)境中自定義算子的開發(fā)工作量,相當(dāng)于提供了一個(gè)可供二次開發(fā)的模板。當(dāng)前MUTLASS已在Github上開源,支持平湖架構(gòu)所有特性,同時(shí)提供高性能矩陣乘法、卷積算子實(shí)現(xiàn),在Kernel中調(diào)用模板庫就可以進(jìn)行二次開發(fā)。
此外,摩爾線程即將發(fā)布的面向大語言模型的開源推理算子庫MUSA AI Tensor Engine,能夠幫助開發(fā)者快速搭建自定義推理引擎。該算子庫提供用戶友好的Python API,進(jìn)一步降低開發(fā)者使用門檻,只要會Python就可以調(diào)用。
大模型訓(xùn)練動輒需要調(diào)動幾千張甚至幾萬張算力卡資源。要實(shí)現(xiàn)模型的高效訓(xùn)練,不僅單卡性能要高,還需要有強(qiáng)大的集群管理和調(diào)度能力。
摩爾線程在WAIC 2025現(xiàn)場展示KUAE夸娥智算集群
摩爾線程自研的夸娥(KUAE)計(jì)算集群,集成了計(jì)算集群、軟件平臺、管理系統(tǒng)、優(yōu)化系統(tǒng)以及維護(hù)和服務(wù)等一系列流程。整合數(shù)據(jù)、模型、張量、流水線和專家并行技術(shù),全面支持Transformer等主流架構(gòu);支持端到端的模型訓(xùn)練,能夠?qū)崿F(xiàn)對混合專家模型、自動駕駛模型、視頻生成模型、具身智能模型等多種類模型的全面支持。
在構(gòu)建高效集群的基礎(chǔ)上,穩(wěn)定可靠的運(yùn)行環(huán)境是“AI工廠”持續(xù)產(chǎn)出的保障。在萬卡級AI集群中,硬件故障導(dǎo)致的訓(xùn)練中斷會嚴(yán)重浪費(fèi)算力,甚至?xí)?dǎo)致訓(xùn)練團(tuán)隊(duì)幾個(gè)月的努力付諸東流。
為此,摩爾線程推出零中斷容錯(cuò)技術(shù),故障發(fā)生時(shí)僅隔離受影響節(jié)點(diǎn)組,其余節(jié)點(diǎn)繼續(xù)訓(xùn)練,備機(jī)無縫接入,全程無中斷。這一方案使KUAE集群有效訓(xùn)練時(shí)間占比超99%,大幅降低恢復(fù)開銷。同時(shí),KUAE集群通過多維度訓(xùn)練洞察體系實(shí)現(xiàn)動態(tài)監(jiān)測與智能診斷,將異常處理效率提升50%;結(jié)合集群巡檢與起飛檢查,訓(xùn)練成功率提高10%,為大規(guī)模AI訓(xùn)練提供穩(wěn)定了保障。
- QQ:61149512