【杏彩彩票平臺怎么樣】中國工程院院士鄭緯民：做好十個軟件，改善基于國產AI芯片的系統生態

來源：杏彩體育更新時間：2024-05-10 10:41:52

每經記者楊(yang)卉 ;每經編(bian)輯楊(yang)夏

4月28日，中國做好中國移動2024算力網絡大會在蘇州開幕。工程個軟《每日經濟新聞》記者在現場注意到，院院于國會上，士鄭善基生態中國工程院院士鄭緯民提到，緯民目前有三類系統可支持大模型訓練。芯系統杏彩彩票平臺怎么樣

其中，中國(guo)(guo)做好基(ji)(ji)(ji)于英偉達(da)GPU的(de)工(gong)程個軟系(xi)統(tong)(tong)一(yi)卡難求；基(ji)(ji)(ji)于國(guo)(guo)產AI芯片的(de)系(xi)統(tong)(tong)仍面臨國(guo)(guo)產卡應用不(bu)足、生態(tai)系(xi)統(tong)(tong)有待改善的(de)院院于國(guo)(guo)問題，可通(tong)過十個軟件(jian)來進行改善；基(ji)(ji)(ji)于超(chao)級計(ji)算機的(de)士鄭善基(ji)(ji)(ji)生態(tai)系(xi)統(tong)(tong)，可在做好軟硬件(jian)協同設計(ji)的(de)緯民情況下實現大(da)模(mo)型(xing)訓(xun)練，但需在超(chao)算機器尚未(wei)飽和(he)的(de)芯系(xi)統(tong)(tong)前(qian)提下操作(zuo)。整體來看，中國(guo)(guo)做好盡管(guan)打造國(guo)(guo)產A1卡的(de)工(gong)程個軟萬卡大(da)模(mo)型(xing)訓(xun)練平(ping)臺難度不(bu)小，但十分(fen)必要。院院于國(guo)(guo)

圖片來源：每經記者楊卉攝

國產卡應用不足，生態系統有待改善

鄭緯民提出，近兩年來人工智能的發展導致算力需求呈爆發性增長，其中模型研發需要配套算力；模型訓練需要海量算力，如訓練GPT-4需要一萬塊英偉達A100芯片跑上11個月；模型精調需要可控算力；模型推理需要可靠算力，杏彩彩票平臺官網算力存在(zai)于大(da)模(mo)型生命(ming)周期的每一環。

然而，海量算力(li)背后有一個很現實的(de)問題：貴。根據鄭緯民計算，在(zai)大模(mo)型訓練的(de)過程中，70%的(de)開銷要(yao)花在(zai)算力(li)上(shang)；推理(li)過程中95%的(de)花費也是在(zai)算力(li)上(shang)，人工智能產(chan)業(ye)算力(li)成本(ben)居高不下(xia)。

鄭緯民進一步指出，要構建基于國(guo)產AI卡的萬卡大模(mo)型訓練平(ping)臺，需要考慮(lv)到幾個問(wen)(wen)題(ti)。首(shou)先是半(ban)精度(du)(du)(du)運(yun)算(suan)性(xing)能(neng)(neng)與雙精度(du)(du)(du)運(yun)算(suan)性(xing)能(neng)(neng)的平(ping)衡問(wen)(wen)題(ti)。鄭緯民強調(diao)，在設計(ji)過程(cheng)中，不僅要考慮(lv)半(ban)精度(du)(du)(du)運(yun)算(suan)性(xing)能(neng)(neng)，還要考慮(lv)雙精度(du)(du)(du)運(yun)算(suan)能(neng)(neng)力，雙精度(du)(du)(du)與半(ban)精度(du)(du)(du)運(yun)算(suan)性(xing)能(neng)(neng)之(zhi)比為(wei)1∶50—1∶100為(wei)宜。“不論是自己做還是買，第一件(jian)事情就是問(wen)(wen)比例(li)是多少(shao)。”

第二點是杏彩彩票平臺官網查詢網絡平衡設計。

鄭緯民(min)解釋稱(cheng)，萬(wan)卡(ka)系(xi)統中(zhong)的(de)萬(wan)塊(kuai)(kuai)(kuai)卡(ka)不能分散在各地，將其連(lian)接起來(lai)就是(shi)所(suo)謂的(de)網(wang)絡。但連(lian)接也很有“講(jiang)究”，每塊(kuai)(kuai)(kuai)卡(ka)之間能實現(xian)直連(lian)是(shi)最好的(de)狀態。但如此(ci)一(yi)(yi)來(lai)，每塊(kuai)(kuai)(kuai)AI卡(ka)都需(xu)插上9999塊(kuai)(kuai)(kuai)連(lian)接卡(ka)，一(yi)(yi)萬(wan)塊(kuai)(kuai)(kuai)AI芯片均要實現(xian)直連(lian)，所(suo)需(xu)的(de)連(lian)接卡(ka)數量(liang)太(tai)過龐(pang)大，成本甚至還要高過萬(wan)塊(kuai)(kuai)(kuai)卡(ka)本身。此(ci)外，即便資金(jin)充足(zu)，卡(ka)槽數量(liang)也無法(fa)滿足(zu)需(xu)求(qiu)。因此(ci)，網(wang)絡設計(ji)不能只針對CNN算(suan)法(fa)，還需(xu)考(kao)慮極大規(gui)(gui)模(mo)(mo)預(yu)訓練(lian)模(mo)(mo)型(xing)對系(xi)統的(de)需(xu)求(qiu)。大規(gui)(gui)模(mo)(mo)預(yu)訓練(lian)模(mo)(mo)型(xing)需(xu)要高帶(dai)寬低延遲網(wang)絡，支(zhi)持數據并行(xing)，模(mo)(mo)型(xing)并行(xing)和專(zhuan)家平行(xing)模(mo)(mo)式(shi)。

第三點(dian)是(shi)體系結(jie)構(gou)感知的(de)內(nei)存平(ping)衡(heng)設計。鄭緯民(min)強調，一方(fang)面(mian)訪問(wen)內(nei)存的(de)請(qing)求使網絡(luo)擁(yong)塞，降低吞吐量，反映到應用程序(xu)上表現(xian)為訪存性能(neng)顯(xian)著(zhu)下降；另(ling)一方(fang)面(mian)，多個(ge)訪問(wen)內(nei)存的(de)請(qing)求可能(neng)訪問(wen)同一存控對應的(de)內(nei)存空間，負載(zai)不均(jun)，存控需要(yao)順序(xu)處(chu)理訪存請(qing)求。

第四點(dian)是(shi)IO子系統平衡設計。鄭緯(wei)民進(jin)一(yi)步解釋稱，萬卡(ka)系統中負載的芯片(pian)數(shu)量太(tai)大，即便是(shi)英偉達芯片(pian)，也(ye)基本(ben)會在(zai)三(san)小時(shi)(shi)左右出(chu)現一(yi)次(ci)錯(cuo)誤。過去，為保(bao)證訓練不被中斷，大模(mo)型訓練廠(chang)商通常采用(yong)間隔一(yi)段時(shi)(shi)間，如2.5小時(shi)(shi)對數(shu)據進(jin)行(xing)一(yi)次(ci)保(bao)存(cun)(cun)或轉(zhuan)移，一(yi)旦出(chu)現錯(cuo)誤可以不必(bi)從0開始，可在(zai)保(bao)存(cun)(cun)位置繼續執(zhi)行(xing)。

然而，大模型訓練數量過大，很難沿用上述操作(zuo)模式。因此，萬卡(ka)系統除了支(zhi)持檢查點操作(zuo)，還需增加SSD（固態(tai)硬(ying)盤）。另外，系統的本地(di)(di)NVMe SSD僅通過本地(di)(di)文件系統訪問，限制了其(qi)應用范圍，需將每臺服務器(qi)上的快速本地(di)(di)NVMe整合為(wei)應用可見的全局分布式文件系統。

鄭緯(wei)民分析指出(chu)，目前來(lai)看，支持(chi)大(da)模型訓練(lian)有三類系(xi)統(tong)，分別為基(ji)于(yu)(yu)英(ying)偉(wei)(wei)達(da)GPU的(de)(de)系(xi)統(tong)、基(ji)于(yu)(yu)國(guo)(guo)產(chan)AI芯片的(de)(de)系(xi)統(tong)和(he)基(ji)于(yu)(yu)超級計算機的(de)(de)系(xi)統(tong)。其中(zhong)，基(ji)于(yu)(yu)英(ying)偉(wei)(wei)達(da)公司GPU的(de)(de)系(xi)統(tong)硬件(jian)性能和(he)編程生態好，但受到禁售影響(xiang)，加(jia)之價格(ge)暴漲，一(yi)卡(ka)難求(qiu)。而(er)基(ji)于(yu)(yu)國(guo)(guo)產(chan)AI芯片的(de)(de)系(xi)統(tong)，盡管近年來(lai)國(guo)(guo)內(nei)二十余家芯片公司取得了很大(da)的(de)(de)進(jin)步，但仍面臨國(guo)(guo)產(chan)卡(ka)應用不(bu)足、生態系(xi)統(tong)有待改善的(de)(de)問題。

十大軟件改善基于國產AI芯片的系統生態

鄭緯民直言，要(yao)改善(shan)基于國(guo)產AI芯片的系(xi)統生態，這(zhe)一問題其(qi)實并不“抽(chou)象”，需要(yao)做好十個軟件(jian)。

第(di)一是編(bian)程框(kuang)架(jia)應進一步降低編(bian)寫人工智(zhi)能模(mo)型的復雜度；利用基本算子(zi)快速構建人工智(zhi)能模(mo)型，如PyTorch、TensorFlow。

第二是(shi)并(bing)(bing)行(xing)(xing)(xing)加速，為多(duo)機多(duo)卡環(huan)境(jing)提供人工智能模型并(bing)(bing)行(xing)(xing)(xing)訓練的能力；支持數(shu)據(ju)并(bing)(bing)行(xing)(xing)(xing)、模型并(bing)(bing)行(xing)(xing)(xing)、流水(shui)線(xian)并(bing)(bing)行(xing)(xing)(xing)、張量并(bing)(bing)行(xing)(xing)(xing)等，如微軟的DeepSpeed、英偉達Megatron-LM。

第三是通信庫要提供(gong)跨(kua)機跨(kua)卡的通信能(neng)力；可支(zhi)持人(ren)工智能(neng)模型訓練所需各種通信模式；可根(gen)據底層網絡(luo)特點充分(fen)利用網絡(luo)通信帶寬，如英偉達的NCCL庫、超算(suan)普遍支(zhi)持的MPI通信庫。

第四是算(suan)子庫(ku)，需(xu)(xu)提供人工(gong)智(zhi)能(neng)模型所(suo)需(xu)(xu)基(ji)本(ben)操作的高性(xing)(xing)能(neng)實(shi)現；能(neng)夠(gou)盡可(ke)能(neng)覆蓋典型人工(gong)智(zhi)能(neng)模型所(suo)需(xu)(xu)的操作；算(suan)子庫(ku)能(neng)充分(fen)發(fa)揮底層硬(ying)件的性(xing)(xing)能(neng)，如英(ying)偉(wei)達cuDNN，cnBLAS。

第五是(shi)AI編譯(yi)(yi)(yi)器(qi)(qi)，要可(ke)在異構處理(li)器(qi)(qi)上對人工(gong)智能(neng)程序生(sheng)成高(gao)效(xiao)的(de)目標(biao)代碼；對算子庫不(bu)能(neng)提供(gong)的(de)操作通過(guo)AI編譯(yi)(yi)(yi)器(qi)(qi)自動生(sheng)成高(gao)效(xiao)目標(biao)代碼，如XLA、TVM。不(bu)過(guo)，鄭緯民也談到，目前國內掌握AI編譯(yi)(yi)(yi)器(qi)(qi)的(de)人才(cai)較(jiao)少(shao)，實現(xian)難(nan)度較(jiao)大。

第六是編程語言，要(yao)提供(gong)異(yi)構(gou)處理(li)器上編寫并行程序的(de)支持；覆蓋(gai)底層硬件功(gong)能，發(fa)揮硬件性能；能夠(gou)編寫人工智(zhi)能模型(xing)的(de)基(ji)本算子（Operator），如英偉達(da)的(de)CUDA，Intel的(de)oneAPI。

第七(qi)是調(diao)(diao)度(du)器，需具備在大規模系統上高效(xiao)(xiao)調(diao)(diao)度(du)人(ren)工智能任務(wu)的(de)能力；同時設計高效(xiao)(xiao)調(diao)(diao)度(du)算(suan)法，提高集群資源(yuan)利(li)用率(lv)，如Kubernetes（K8S）、華(hua)為ModelArts。

第八是內存分(fen)配系(xi)統(tong)，可針對人(ren)工智能應用特(te)點提供高(gao)效的內存分(fen)配策略。

第九是容(rong)錯系統，用來提供(gong)在硬(ying)件發生故(gu)障后快速恢復模型訓練的能(neng)力。

第十是(shi)存儲系統，需支持訓(xun)練過(guo)程(cheng)中高效(xiao)的(de)數據讀寫（檢查點(dian)訓(xun)練數據等(deng)）。

鄭緯(wei)民(min)(min)直言，當前國內(nei)已經有(you)了上述軟件(jian)，但做得不(bu)夠(gou)(gou)全(quan)，不(bu)夠(gou)(gou)好(hao)。當務之急是先將上述軟件(jian)做好(hao)，從而提高用戶的使(shi)用意(yi)愿。鄭緯(wei)民(min)(min)強調，國產AI芯片與業(ye)界(jie)領(ling)先水平存(cun)在一(yi)定差(cha)距，但若將生(sheng)態做好(hao)，只(zhi)要(yao)性能可以達(da)到業(ye)界(jie)領(ling)先水平的一(yi)半或60%，客戶也會(hui)愿意(yi)使(shi)用，大多數任務不(bu)會(hui)因芯片性能的微小差(cha)異(yi)而有(you)明顯感(gan)知。

至于第三種渠道，基于超(chao)級計算(suan)機(ji)的(de)系(xi)統，根據鄭緯(wei)民(min)透露，當前國內約有14個國家級超(chao)算(suan)中心(xin)，性能很(hen)快且機(ji)器使用情況尚(shang)未(wei)達到飽和。若軟(ruan)硬件協同的(de)設(she)計做(zuo)好，在超(chao)算(suan)機(ji)器上做(zuo)大模型(xing)訓練也是可能實(shi)現的(de)。

鄭緯民提供的(de)視頻(pin)演(yan)示(shi)顯示(shi)，在某國產超(chao)(chao)算(suan)上(shang)進(jin)行(xing)(xing)大(da)模(mo)(mo)型(xing)(xing)訓(xun)(xun)練(lian)與(yu)推(tui)理時(shi)，使(shi)用超(chao)(chao)算(suan)調度(du)系(xi)統(tong)申請(qing)512個節點來(lai)進(jin)行(xing)(xing)7B模(mo)(mo)型(xing)(xing)預訓(xun)(xun)練(lian)，半精度(du)和(he)全精度(du)訓(xun)(xun)練(lian)效果可與(yu)英(ying)偉達平臺完全對齊(qi)；與(yu)租用英(ying)偉達GPU相比，使(shi)用國產超(chao)(chao)算(suan)可節省(sheng)6倍左(zuo)右(you)的(de)成本。加載開源的(de)百川2—7B模(mo)(mo)型(xing)(xing)進(jin)行(xing)(xing)推(tui)理，推(tui)理精度(du)也與(yu)英(ying)偉達一致。更(geng)為(wei)關(guan)鍵(jian)的(de)是，從成本角(jiao)度(du)考慮，在上(shang)述超(chao)(chao)算(suan)平臺上(shang)訓(xun)(xun)練(lian)大(da)模(mo)(mo)型(xing)(xing)，只需花費英(ying)偉達系(xi)統(tong)六分之一的(de)成本。

談及(ji)當前(qian)智能算力行業面臨(lin)的痛點，鄭緯(wei)民直言，構(gou)建國(guo)產萬(wan)卡(ka)系統很難，但很有必要，未來還是要繁榮(rong)國(guo)產卡(ka)的生態(tai)系統，做好軟硬件(jian)的協同(tong)設計，同(tong)時解(jie)決大模型基礎設施的幾(ji)大問題(ti)。“雖然(ran)很難，但只要我們努(nu)力，與芯片公司(si)合作(zuo)，一定能將萬(wan)卡(ka)系統做好。”鄭緯(wei)民稱。

上一篇：中國工商銀行原黨委委員、副行長張紅力被開除黨籍

下一篇：團結書社尋龍記

相關文章

新聞中心分類: 安卓(zhuo)/IOS官方下載; 官(guan)方網站

現貨產品MORE

国产特级毛片AAAAAA_国内大量揄拍人妻精品視頻_japanese@hd熟女_日本人与黑人VIDEOS系列

【杏彩彩票平臺怎么樣】中國工程院院士鄭緯民：做好十個軟件，改善基于國產AI芯片的系統生態

國產卡應用不足，生態系統有待改善

十大軟件改善基于國產AI芯片的系統生態