国产特级毛片AAAAAA_国内大量揄拍人妻精品視頻_japanese@hd熟女_日本人与黑人VIDEOS系列

歡迎您訪問杏彩體育官方網站!
服務熱線:020-13658441256
  • 產品
  • 文章

NEWS CENTER

新聞中心

當前位置:首頁 > 官方APP下載

【杏彩彩票平臺怎么樣】中國工程院院士鄭緯民:做好十個軟件,改善基于國產AI芯片的系統生態

來源:杏彩體育  更新時間:2024-05-10 10:41:52


每經記者 楊(yang)卉    ;每經編(bian)輯 楊(yang)夏    

4月28日,中國做好中國移動2024算力網絡大會在蘇州開幕。工程個軟《每日經濟新聞》記者在現場注意到,院院于國會上,士鄭善基生態中國工程院院士鄭緯民提到,緯民目前有三類系統可支持大模型訓練。芯系統杏彩彩票平臺怎么樣

其中,中國(guo)(guo)做好基(ji)(ji)(ji)于英偉達(da)GPU的(de)工(gong)程個軟系(xi)統(tong)(tong)一(yi)卡難求;基(ji)(ji)(ji)于國(guo)(guo)產AI芯片的(de)系(xi)統(tong)(tong)仍面臨國(guo)(guo)產卡應用不(bu)足、生態(tai)系(xi)統(tong)(tong)有待改善的(de)院院于國(guo)(guo)問題,可通(tong)過十個軟件(jian)來進行改善;基(ji)(ji)(ji)于超(chao)級計(ji)算機的(de)士鄭善基(ji)(ji)(ji)生態(tai)系(xi)統(tong)(tong),可在做好軟硬件(jian)協同設計(ji)的(de)緯民情況下實現大(da)模(mo)型(xing)訓(xun)練,但需在超(chao)算機器尚未(wei)飽和(he)的(de)芯系(xi)統(tong)(tong)前(qian)提下操作(zuo)。整體來看,中國(guo)(guo)做好盡管(guan)打造國(guo)(guo)產A1卡的(de)工(gong)程個軟萬卡大(da)模(mo)型(xing)訓(xun)練平(ping)臺難度不(bu)小,但十分(fen)必要。院院于國(guo)(guo)

圖片來源:每經記者 楊卉 攝

國產卡應用不足,生態系統有待改善

鄭緯民提出,近兩年來人工智能的發展導致算力需求呈爆發性增長,其中模型研發需要配套算力;模型訓練需要海量算力,如訓練GPT-4需要一萬塊英偉達A100芯片跑上11個月;模型精調需要可控算力;模型推理需要可靠算力,杏彩彩票平臺官網算力存在(zai)于大(da)模(mo)型生命(ming)周期的每一環。

然而,海量算力(li)背后有一個很現實的(de)問題:貴。根據鄭緯民計算,在(zai)大模(mo)型訓練的(de)過程中,70%的(de)開銷要(yao)花在(zai)算力(li)上(shang);推理(li)過程中95%的(de)花費也是在(zai)算力(li)上(shang),人工智能產(chan)業(ye)算力(li)成本(ben)居高不下(xia)。

鄭緯民進一步指出,要構建基于國(guo)產AI卡的萬卡大模(mo)型訓練平(ping)臺,需要考慮(lv)到幾個問(wen)(wen)題(ti)。首(shou)先是半(ban)精度(du)(du)(du)運(yun)算(suan)性(xing)能(neng)(neng)與雙精度(du)(du)(du)運(yun)算(suan)性(xing)能(neng)(neng)的平(ping)衡問(wen)(wen)題(ti)。鄭緯民強調(diao),在設計(ji)過程(cheng)中,不僅要考慮(lv)半(ban)精度(du)(du)(du)運(yun)算(suan)性(xing)能(neng)(neng),還要考慮(lv)雙精度(du)(du)(du)運(yun)算(suan)能(neng)(neng)力,雙精度(du)(du)(du)與半(ban)精度(du)(du)(du)運(yun)算(suan)性(xing)能(neng)(neng)之(zhi)比為(wei)1∶50—1∶100為(wei)宜。“不論是自己做還是買,第一件(jian)事情就是問(wen)(wen)比例(li)是多少(shao)。”

第二點是杏彩彩票平臺官網查詢網絡平衡設計。

鄭緯民(min)解釋稱(cheng),萬(wan)卡(ka)系(xi)統中(zhong)的(de)萬(wan)塊(kuai)(kuai)(kuai)卡(ka)不能分散在各地,將其連(lian)接起來(lai)就是(shi)所(suo)謂的(de)網(wang)絡。但連(lian)接也很有“講(jiang)究”,每塊(kuai)(kuai)(kuai)卡(ka)之間能實現(xian)直連(lian)是(shi)最好的(de)狀態。但如此(ci)一(yi)(yi)來(lai),每塊(kuai)(kuai)(kuai)AI卡(ka)都需(xu)插上9999塊(kuai)(kuai)(kuai)連(lian)接卡(ka),一(yi)(yi)萬(wan)塊(kuai)(kuai)(kuai)AI芯片均要實現(xian)直連(lian),所(suo)需(xu)的(de)連(lian)接卡(ka)數量(liang)太(tai)過龐(pang)大,成本甚至還要高過萬(wan)塊(kuai)(kuai)(kuai)卡(ka)本身。此(ci)外,即便資金(jin)充足(zu),卡(ka)槽數量(liang)也無法(fa)滿足(zu)需(xu)求(qiu)。因此(ci),網(wang)絡設計(ji)不能只針對CNN算(suan)法(fa),還需(xu)考(kao)慮極大規(gui)(gui)模(mo)(mo)預(yu)訓練(lian)模(mo)(mo)型(xing)對系(xi)統的(de)需(xu)求(qiu)。大規(gui)(gui)模(mo)(mo)預(yu)訓練(lian)模(mo)(mo)型(xing)需(xu)要高帶(dai)寬低延遲網(wang)絡,支(zhi)持數據并行(xing),模(mo)(mo)型(xing)并行(xing)和專(zhuan)家平行(xing)模(mo)(mo)式(shi)。

第三點(dian)是(shi)體系結(jie)構(gou)感知的(de)內(nei)存平(ping)衡(heng)設計。鄭緯民(min)強調,一方(fang)面(mian)訪問(wen)內(nei)存的(de)請(qing)求使網絡(luo)擁(yong)塞,降低吞吐量,反映到應用程序(xu)上表現(xian)為訪存性能(neng)顯(xian)著(zhu)下降;另(ling)一方(fang)面(mian),多個(ge)訪問(wen)內(nei)存的(de)請(qing)求可能(neng)訪問(wen)同一存控對應的(de)內(nei)存空間,負載(zai)不均(jun),存控需要(yao)順序(xu)處(chu)理訪存請(qing)求。

第四點(dian)是(shi)IO子系統平衡設計。鄭緯(wei)民進(jin)一(yi)步解釋稱,萬卡(ka)系統中負載的芯片(pian)數(shu)量太(tai)大,即便是(shi)英偉達芯片(pian),也(ye)基本(ben)會在(zai)三(san)小時(shi)(shi)左右出(chu)現一(yi)次(ci)錯(cuo)誤。過去,為保(bao)證訓練不被中斷,大模(mo)型訓練廠(chang)商通常采用(yong)間隔一(yi)段時(shi)(shi)間,如2.5小時(shi)(shi)對數(shu)據進(jin)行(xing)一(yi)次(ci)保(bao)存(cun)(cun)或轉(zhuan)移,一(yi)旦出(chu)現錯(cuo)誤可以不必(bi)從0開始,可在(zai)保(bao)存(cun)(cun)位置繼續執(zhi)行(xing)。

然而,大模型訓練數量過大,很難沿用上述操作(zuo)模式。因此,萬卡(ka)系統除了支(zhi)持檢查點操作(zuo),還需增加SSD(固態(tai)硬(ying)盤)。另外,系統的本地(di)(di)NVMe SSD僅通過本地(di)(di)文件系統訪問,限制了其(qi)應用范圍,需將每臺服務器(qi)上的快速本地(di)(di)NVMe整合為(wei)應用可見的全局分布式文件系統。

鄭緯(wei)民分析指出(chu),目前來(lai)看,支持(chi)大(da)模型訓練(lian)有三類系(xi)統(tong),分別為基(ji)于(yu)(yu)英(ying)偉(wei)(wei)達(da)GPU的(de)(de)系(xi)統(tong)、基(ji)于(yu)(yu)國(guo)(guo)產(chan)AI芯片的(de)(de)系(xi)統(tong)和(he)基(ji)于(yu)(yu)超級計算機的(de)(de)系(xi)統(tong)。其中(zhong),基(ji)于(yu)(yu)英(ying)偉(wei)(wei)達(da)公司GPU的(de)(de)系(xi)統(tong)硬件(jian)性能和(he)編程生態好,但受到禁售影響(xiang),加(jia)之價格(ge)暴漲,一(yi)卡(ka)難求(qiu)。而(er)基(ji)于(yu)(yu)國(guo)(guo)產(chan)AI芯片的(de)(de)系(xi)統(tong),盡管近年來(lai)國(guo)(guo)內(nei)二十余家芯片公司取得了很大(da)的(de)(de)進(jin)步,但仍面臨國(guo)(guo)產(chan)卡(ka)應用不(bu)足、生態系(xi)統(tong)有待改善的(de)(de)問題。

十大軟件改善基于國產AI芯片的系統生態

鄭緯民直言,要(yao)改善(shan)基于國(guo)產AI芯片的系(xi)統生態,這(zhe)一問題其(qi)實并不“抽(chou)象”,需要(yao)做好十個軟件(jian)。

第(di)一是編(bian)程框(kuang)架(jia)應進一步降低編(bian)寫人工智(zhi)能模(mo)型的復雜度;利用基本算子(zi)快速構建人工智(zhi)能模(mo)型,如PyTorch、TensorFlow。

第二是(shi)并(bing)(bing)行(xing)(xing)(xing)加速,為多(duo)機多(duo)卡環(huan)境(jing)提供人工智能模型并(bing)(bing)行(xing)(xing)(xing)訓練的能力;支持數(shu)據(ju)并(bing)(bing)行(xing)(xing)(xing)、模型并(bing)(bing)行(xing)(xing)(xing)、流水(shui)線(xian)并(bing)(bing)行(xing)(xing)(xing)、張量并(bing)(bing)行(xing)(xing)(xing)等,如微軟的DeepSpeed、英偉達Megatron-LM。

第三是通信庫要提供(gong)跨(kua)機跨(kua)卡的通信能(neng)力;可支(zhi)持人(ren)工智能(neng)模型訓練所需各種通信模式;可根(gen)據底層網絡(luo)特點充分(fen)利用網絡(luo)通信帶寬,如英偉達的NCCL庫、超算(suan)普遍支(zhi)持的MPI通信庫。

第四是算(suan)子庫(ku),需(xu)(xu)提供人工(gong)智(zhi)能(neng)模型所(suo)需(xu)(xu)基(ji)本(ben)操作的高性(xing)(xing)能(neng)實(shi)現;能(neng)夠(gou)盡可(ke)能(neng)覆蓋典型人工(gong)智(zhi)能(neng)模型所(suo)需(xu)(xu)的操作;算(suan)子庫(ku)能(neng)充分(fen)發(fa)揮底層硬(ying)件的性(xing)(xing)能(neng),如英(ying)偉(wei)達cuDNN,cnBLAS。

第五是(shi)AI編譯(yi)(yi)(yi)器(qi)(qi),要可(ke)在異構處理(li)器(qi)(qi)上對人工(gong)智能(neng)程序生(sheng)成高(gao)效(xiao)的(de)目標(biao)代碼;對算子庫不(bu)能(neng)提供(gong)的(de)操作通過(guo)AI編譯(yi)(yi)(yi)器(qi)(qi)自動生(sheng)成高(gao)效(xiao)目標(biao)代碼,如XLA、TVM。不(bu)過(guo),鄭緯民也談到,目前國內掌握AI編譯(yi)(yi)(yi)器(qi)(qi)的(de)人才(cai)較(jiao)少(shao),實現(xian)難(nan)度較(jiao)大。

第六是編程語言,要(yao)提供(gong)異(yi)構(gou)處理(li)器上編寫并行程序的(de)支持;覆蓋(gai)底層硬件功(gong)能,發(fa)揮硬件性能;能夠(gou)編寫人工智(zhi)能模型(xing)的(de)基(ji)本算子(Operator),如英偉達(da)的(de)CUDA,Intel的(de)oneAPI。

第七(qi)是調(diao)(diao)度(du)器,需具備在大規模系統上高效(xiao)(xiao)調(diao)(diao)度(du)人(ren)工智能任務(wu)的(de)能力;同時設計高效(xiao)(xiao)調(diao)(diao)度(du)算(suan)法,提高集群資源(yuan)利(li)用率(lv),如Kubernetes(K8S)、華(hua)為ModelArts。

第八是內存分(fen)配系(xi)統(tong),可針對人(ren)工智能應用特(te)點提供高(gao)效的內存分(fen)配策略。

第九是容(rong)錯系統,用來提供(gong)在硬(ying)件發生故(gu)障后快速恢復模型訓練的能(neng)力。

第十是(shi)存儲系統,需支持訓(xun)練過(guo)程(cheng)中高效(xiao)的(de)數據讀寫(檢查點(dian)訓(xun)練數據等(deng))。

鄭緯(wei)民(min)(min)直言,當前國內(nei)已經有(you)了上述軟件(jian),但做得不(bu)夠(gou)(gou)全(quan),不(bu)夠(gou)(gou)好(hao)。當務之急是先將上述軟件(jian)做好(hao),從而提高用戶的使(shi)用意(yi)愿。鄭緯(wei)民(min)(min)強調,國產AI芯片與業(ye)界(jie)領(ling)先水平存(cun)在一(yi)定差(cha)距,但若將生(sheng)態做好(hao),只(zhi)要(yao)性能可以達(da)到業(ye)界(jie)領(ling)先水平的一(yi)半或60%,客戶也會(hui)愿意(yi)使(shi)用,大多數任務不(bu)會(hui)因芯片性能的微小差(cha)異(yi)而有(you)明顯感(gan)知。

至于第三種渠道,基于超(chao)級計算(suan)機(ji)的(de)系(xi)統,根據鄭緯(wei)民(min)透露,當前國內約有14個國家級超(chao)算(suan)中心(xin),性能很(hen)快且機(ji)器使用情況尚(shang)未(wei)達到飽和。若軟(ruan)硬件協同的(de)設(she)計做(zuo)好,在超(chao)算(suan)機(ji)器上做(zuo)大模型(xing)訓練也是可能實(shi)現的(de)。

鄭緯民提供的(de)視頻(pin)演(yan)示(shi)顯示(shi),在某國產超(chao)(chao)算(suan)上(shang)進(jin)行(xing)(xing)大(da)模(mo)(mo)型(xing)(xing)訓(xun)(xun)練(lian)與(yu)推(tui)理時(shi),使(shi)用超(chao)(chao)算(suan)調度(du)系(xi)統(tong)申請(qing)512個節點來(lai)進(jin)行(xing)(xing)7B模(mo)(mo)型(xing)(xing)預訓(xun)(xun)練(lian),半精度(du)和(he)全精度(du)訓(xun)(xun)練(lian)效果可與(yu)英(ying)偉達平臺完全對齊(qi);與(yu)租用英(ying)偉達GPU相比,使(shi)用國產超(chao)(chao)算(suan)可節省(sheng)6倍左(zuo)右(you)的(de)成本。加載開源的(de)百川2—7B模(mo)(mo)型(xing)(xing)進(jin)行(xing)(xing)推(tui)理,推(tui)理精度(du)也與(yu)英(ying)偉達一致。更(geng)為(wei)關(guan)鍵(jian)的(de)是,從成本角(jiao)度(du)考慮,在上(shang)述超(chao)(chao)算(suan)平臺上(shang)訓(xun)(xun)練(lian)大(da)模(mo)(mo)型(xing)(xing),只需花費英(ying)偉達系(xi)統(tong)六分之一的(de)成本。

談及(ji)當前(qian)智能算力行業面臨(lin)的痛點,鄭緯(wei)民直言,構(gou)建國(guo)產萬(wan)卡(ka)系統很難,但很有必要,未來還是要繁榮(rong)國(guo)產卡(ka)的生態(tai)系統,做好軟硬件(jian)的協同(tong)設計,同(tong)時解(jie)決大模型基礎設施的幾(ji)大問題(ti)。“雖然(ran)很難,但只要我們努(nu)力,與芯片公司(si)合作(zuo),一定能將萬(wan)卡(ka)系統做好。”鄭緯(wei)民稱。

 


相關文章