hao86下載站:值得大家信賴的游戲下載站!

首頁 > 區(qū)塊鏈 > 算力供需矛盾:一邊大模型爭(zhēng)霸、一邊GPU算力閑置

算力供需矛盾:一邊大模型爭(zhēng)霸、一邊GPU算力閑置

時(shí)間:2023-12-29 17:47:00
來源:hao86下載
區(qū)塊鏈

【#區(qū)塊鏈# #算力供需矛盾:一邊大模型爭(zhēng)霸、一邊GPU算力閑置#】

原文來源:鈦媒體APP

作者 | 楊麗

圖片來源:由無界 AI?生成

全球大模型爭(zhēng)霸賽,正推進(jìn)大量產(chǎn)業(yè)應(yīng)用訴求。但這一年矛盾最突出的話題卻不是怎么用明白大模型,而是企業(yè)用戶對(duì)云數(shù)據(jù)中心、服務(wù)器集群,對(duì)大算力芯片的海量計(jì)算訴求沒有得到充分滿足。算力供需矛盾的背后,很重要的一點(diǎn)其實(shí)是算力閑置問題。

據(jù)研究機(jī)構(gòu)IDC最新數(shù)據(jù),2023年上半年加速服務(wù)器市場(chǎng)規(guī)模達(dá)到31億美元,同比2022年上半年增長(zhǎng)54%。其中GPU服務(wù)器依然是主導(dǎo)地位,占據(jù)92%的市場(chǎng)份額,達(dá)到30億美元。同時(shí)NPU、ASIC和FPGA等非GPU加速服務(wù)器以同比17%的增速占有了8%的市場(chǎng)份額,達(dá)到2億美元。

這里的GPU就是面向智算場(chǎng)景的GPGPU(General-purpose computing on graphics processing units,通用圖形處理器)。其中大部分市場(chǎng)由英偉達(dá)占據(jù),2022年,英偉達(dá)A100 GPU芯片供貨量緊張,且價(jià)格水漲船高,而在中國市場(chǎng),在10月新的禁令之前,中國特供版A800和H800 GPU也早已斷貨。

大模型算力應(yīng)用基本可分為“訓(xùn)練”和“推理”兩個(gè)場(chǎng)景。在推理場(chǎng)景,盡管對(duì)算力性能要求不高,但當(dāng)訓(xùn)練好的模型部署到實(shí)際生產(chǎn)中時(shí),會(huì)需要大量服務(wù)器進(jìn)行并行網(wǎng)絡(luò)計(jì)算,推理成本會(huì)驟然提升。

而訓(xùn)練場(chǎng)景所需的算力會(huì)更強(qiáng),這一階段,神經(jīng)網(wǎng)絡(luò)需要不止一臺(tái)服務(wù)器進(jìn)行大規(guī)模計(jì)算。由于模型訓(xùn)練有時(shí)間周期,算力滿額意味著GPU卡實(shí)現(xiàn)了100%資源利用,但訓(xùn)練任務(wù)比較小對(duì)算力要求不高,也得占用一張卡,基本處于閑置狀態(tài)。

據(jù)相關(guān)分析稱,OpenAI在GPT-4的訓(xùn)練中使用了大約2.15e25的FLOPS,在大約25000個(gè)A100 GPU上進(jìn)行了90到100天的訓(xùn)練,其算力利用率約為32%至36%。這種算力利用率低的情況在業(yè)內(nèi)更加普遍。

鈦媒體結(jié)合政策了解到的情況是,中國正主導(dǎo)構(gòu)建用于數(shù)據(jù)處理的高性能通訊網(wǎng)絡(luò),以及多元異構(gòu)的芯片算力(包括GPU、CPU、以及國產(chǎn)芯片等)的調(diào)度和管理問題。


算力閑置的本質(zhì)邏輯


過去十年,分布式云計(jì)算構(gòu)建經(jīng)典的“削峰填谷”和“資源池化”,以更好地實(shí)現(xiàn)云服務(wù)的彈性調(diào)度。這種變化其實(shí)也在影響云服務(wù)的商業(yè)模式轉(zhuǎn)變。

一位咨詢機(jī)構(gòu)云服務(wù)合伙人曾對(duì)鈦媒體表示,過去云服務(wù)商依靠的正是虛機(jī)忙時(shí)和閑時(shí)調(diào)度,去獲得超額的利潤(rùn)回報(bào),也就是“超賣”,此時(shí)各家比拼的是誰的調(diào)度技術(shù)更優(yōu)秀。

而大模型場(chǎng)景下,算力需要大規(guī)模集中式訓(xùn)練,服務(wù)器也無法被切分成單個(gè)虛機(jī),怎樣設(shè)計(jì)算子和算力調(diào)度,怎樣滿足大模型應(yīng)用的高性能智算場(chǎng)景,這是云服務(wù)商在頭疼、大模型創(chuàng)企或其他中小團(tuán)隊(duì)在反復(fù)提要求的部分。

不少領(lǐng)域?qū)嵺`者或?qū)W術(shù)專家進(jìn)行分析,這一挑戰(zhàn)也體現(xiàn)在大模型平臺(tái)設(shè)計(jì)的工程性問題上。

例如,如何提升大規(guī)模分布式訓(xùn)練的計(jì)算效率一直是大模型預(yù)訓(xùn)練的一個(gè)核心問題。特別是在實(shí)際的AI集群環(huán)境中,會(huì)存在GPU之間的互聯(lián)帶寬受限或AI服務(wù)器之間的網(wǎng)絡(luò)互聯(lián)帶寬有限。

大模型參數(shù)量巨大,意味著對(duì)顯存的占用也大。過去小模型的結(jié)構(gòu)不易有效進(jìn)行計(jì)算和通信,但大模型規(guī)模已在TB級(jí)別,GPU顯存大小基本在80G(以英偉達(dá)A100為例),單個(gè)GPU無法完全容納整個(gè)模型訓(xùn)練,采用分布式訓(xùn)練是必然。這也同時(shí)導(dǎo)致了GPU通信問題,由于卡與卡之間存在的通信開銷,增加一倍卡并不能帶來線性的性能加速。

此外,卡數(shù)量增多后,過熱、故障就會(huì)一定比例出現(xiàn),這往往會(huì)導(dǎo)致訓(xùn)練中斷、梯度爆炸、算法重跑一遍等,模型訓(xùn)練成本也會(huì)居高不下。

鈦媒體注意到,業(yè)內(nèi)出現(xiàn)了諸多專門為大規(guī)模并行計(jì)算設(shè)計(jì)的高性能分布式訓(xùn)練框架,并伴隨大模型技術(shù)的深化而逐步創(chuàng)新。

有眾所周知的大數(shù)據(jù)開發(fā)引擎Spark,專為深度學(xué)習(xí)開發(fā)的PyTorch,目前Pytorch官方也同樣開發(fā)了分布式訓(xùn)練框架Accelerate供AI人士使用。而UC Berkeley RISELa開源的Ray(據(jù)稱也是ChatGPT背后在使用的框架)和云托管產(chǎn)品AnyScale,微軟開源的深度學(xué)習(xí)庫DeepSpeed也備受歡迎。在從業(yè)者看來,盡管分布式訓(xùn)練框架非常多,但主流方案還是PyTorch+Megatron-LM+DeepSpeed。

目前在國內(nèi)也有類似的分布式訓(xùn)練框架,例如潞晨科技的ColossalAI、一流科技的OneFlow,而對(duì)于國內(nèi)在煉大模型的頭部互聯(lián)網(wǎng)廠商,如阿里的EPL(原名Whale)、華為的MindSpore、騰訊的AngelPTM等,市面上已有的框架并不能完全滿足其訴求,也會(huì)設(shè)計(jì)相應(yīng)的軟件棧用于自身基礎(chǔ)設(shè)施、硬件設(shè)施進(jìn)行進(jìn)一步定制和開發(fā)。


提高資源利用,分布式還能怎么創(chuàng)新?


基于GPU實(shí)現(xiàn)并行處理是常見手段。大模型訓(xùn)練中存在幾種經(jīng)典的分布式并行范式,分別為流水線并行(Pipeline Parallelism),數(shù)據(jù)并行(Data Parallelism)和張量并行(Tensor Parallesim)。微軟開源的分布式訓(xùn)練框架FastSpeed就融合了這三種并行范式。

浪潮信息人工智能軟件研發(fā)總監(jiān)吳韶華的主張是,相比于經(jīng)典的三維并用(張量并行+流水線并行+數(shù)據(jù)并行)方法,源2.0在三維并行策略的基礎(chǔ)上提出了非均勻流水并行+優(yōu)化器參數(shù)并行(ZeRO)+數(shù)據(jù)并行+損失計(jì)算分塊的分布式計(jì)算方法。

這種計(jì)算方式能有效降低大模型訓(xùn)練過程中對(duì)于節(jié)點(diǎn)內(nèi)AI芯片間通訊帶寬的需求,有更廣的適應(yīng)性。對(duì)帶寬的需求更小,同時(shí)也能獲得非常高的性能表現(xiàn)。同時(shí)結(jié)合優(yōu)化器參數(shù)并行,進(jìn)一步降低內(nèi)存需求,從而降低流水線路數(shù),最大限度地合理利用計(jì)算資源,實(shí)現(xiàn)存儲(chǔ)和計(jì)算的總體最佳性能。

他解釋稱,傳統(tǒng)方式的內(nèi)存分布在各個(gè)階段非常不均衡,往往在第一階段,其內(nèi)存已經(jīng)達(dá)到GPU上限,模型訓(xùn)練需要更多的計(jì)算設(shè)備和更長(zhǎng)的流水并行,性能也不高。而非均勻流水方法,就是在劃分流水時(shí)不再采用均勻劃分方式,而是根據(jù)內(nèi)存需求實(shí)現(xiàn)比較均勻的分配,以滿足在有限硬件設(shè)備的模型訓(xùn)練。這種方式可有效緩解流水線頭部與尾部的內(nèi)存瓶頸,讓模型在流水并行各階段的內(nèi)存占用量分布更均衡。

2023年,浪潮信息AI團(tuán)隊(duì)相繼研發(fā)了OGAI大模型智算軟件棧、源2.0大模型,從軟硬協(xié)同層面去持續(xù)提升基礎(chǔ)大模型的能力,同時(shí)通過開放算力發(fā)展生態(tài)去探索可能突破的場(chǎng)景。經(jīng)過驗(yàn)證,源2.0大模型算力集群的線性擴(kuò)展效率遠(yuǎn)高于同類千億參數(shù)大模型。結(jié)合實(shí)踐數(shù)據(jù),浪潮信息協(xié)助客戶將大模型訓(xùn)練的GPU峰值效率從30%提升至54%。


搶購算力,還沒考慮怎么用


參照GenAI的整體走向,無論是提高模型參數(shù)量,還是提高數(shù)據(jù)質(zhì)量規(guī)模,算力依舊是支撐大模型智能水平的核心驅(qū)力。要用足夠大的算力,去支撐起足夠精準(zhǔn)的模型泛化。但摩爾定律放緩在說明某些現(xiàn)實(shí)問題:大模型訓(xùn)練所需算力,已經(jīng)遠(yuǎn)超硬件加速器的處理速度,同時(shí)帶來的能源問題、數(shù)據(jù)中心的能耗問題,還浮于冰面之下。

而中國市場(chǎng),相較于美國整體上還是會(huì)有一些差距,主流的算力芯片和加速能力基本來自于英偉達(dá),客戶對(duì)國產(chǎn)芯片作為備選方案的需求仍然不足。

某靠近底層硬件研發(fā)的AI從業(yè)者在探討中對(duì)鈦媒體指出,“適配都存在一定的難度,也就是說想要做這件事就必須有額外的投入。國產(chǎn)GPU廠商也會(huì)考慮幾點(diǎn)因素:一是用戶對(duì)國產(chǎn)芯片這件事情的必要性,二是業(yè)務(wù)目標(biāo)是否能達(dá)成;三是性能是否會(huì)有比較大的提升。”

這其實(shí)就帶來個(gè)問題,如果選擇適配國產(chǎn)GPU會(huì)做軟件適配或更上層的模型能力,勢(shì)必需要一定的時(shí)間,有些企業(yè)仍會(huì)通過諸多合規(guī)渠道購買芯片?;蛘?,某些使用規(guī)模不大的實(shí)驗(yàn)室也會(huì)采用英偉達(dá)的消費(fèi)級(jí)產(chǎn)品RTX 4090,這種方式性價(jià)比高,主要用于推理。

不過,這位從業(yè)者還注意到,“有些企業(yè)囤了很多先進(jìn)的高性能芯片,但大家訂購的第一想法其實(shí)并沒有考慮到怎么使用,或者說對(duì)于怎么用好這個(gè)邏輯上多少存在些問題。”

在新一輪超級(jí)周期中,GenAI無疑是企業(yè)競(jìng)爭(zhēng)的重點(diǎn)。企業(yè)仍需加大硬實(shí)力投入,算力資源優(yōu)化的同時(shí),也正時(shí)刻關(guān)注算法、數(shù)據(jù)帶給模型增強(qiáng)的突破。

現(xiàn)如今預(yù)訓(xùn)練大模型的算法框架依然是基于Transformer經(jīng)典架構(gòu),Transformer優(yōu)勢(shì)在于解決了原有循環(huán)神經(jīng)網(wǎng)絡(luò)無法理解上下文的問題,但Transformer同樣存在局限性或者可優(yōu)化的空間。

正如某AI大模型早期從業(yè)者曾對(duì)鈦媒體強(qiáng)調(diào),“從某些具體落地性上,算法比算力可能更為重要,我們會(huì)針對(duì)場(chǎng)景做很多算法上的創(chuàng)新,而這些問題往往是算力解決不了的。在沒有更好算法的時(shí)候,你其實(shí)是不知道1000個(gè)GPU能帶來多大的效果?!?/p>

算力,是最大的幫手,也成為最大的挑戰(zhàn)。

小編推薦下載

相關(guān)文章

更多>>

資訊排行

同類軟件下載