首頁 > 區(qū)塊鏈 > 算力供需矛盾：一邊大模型爭(zhēng)霸、一邊GPU算力閑置

算力供需矛盾：一邊大模型爭(zhēng)霸、一邊GPU算力閑置

時(shí)間：2023-12-29 17:47:00

來源：hao86下載

區(qū)塊鏈

【#區(qū)塊鏈# #算力供需矛盾：一邊大模型爭(zhēng)霸、一邊GPU算力閑置#】

原文來源：鈦媒體APP

作者 | 楊麗

圖片來源：由無界 AI?生成

全球大模型爭(zhēng)霸賽，正推進(jìn)大量產(chǎn)業(yè)應(yīng)用訴求。但這一年矛盾最突出的話題卻不是怎么用明白大模型，而是企業(yè)用戶對(duì)云數(shù)據(jù)中心、服務(wù)器集群，對(duì)大算力芯片的海量計(jì)算訴求沒有得到充分滿足。算力供需矛盾的背后，很重要的一點(diǎn)其實(shí)是算力閑置問題。

據(jù)研究機(jī)構(gòu)IDC最新數(shù)據(jù)，2023年上半年加速服務(wù)器市場(chǎng)規(guī)模達(dá)到31億美元，同比2022年上半年增長(zhǎng)54%。其中GPU服務(wù)器依然是主導(dǎo)地位，占據(jù)92%的市場(chǎng)份額，達(dá)到30億美元。同時(shí)NPU、ASIC和FPGA等非GPU加速服務(wù)器以同比17%的增速占有了8%的市場(chǎng)份額，達(dá)到2億美元。

這里的GPU就是面向智算場(chǎng)景的GPGPU（General-purpose computing on graphics processing units，通用圖形處理器）。其中大部分市場(chǎng)由英偉達(dá)占據(jù)，2022年，英偉達(dá)A100 GPU芯片供貨量緊張，且價(jià)格水漲船高，而在中國市場(chǎng)，在10月新的禁令之前，中國特供版A800和H800 GPU也早已斷貨。

大模型算力應(yīng)用基本可分為“訓(xùn)練”和“推理”兩個(gè)場(chǎng)景。在推理場(chǎng)景，盡管對(duì)算力性能要求不高，但當(dāng)訓(xùn)練好的模型部署到實(shí)際生產(chǎn)中時(shí)，會(huì)需要大量服務(wù)器進(jìn)行并行網(wǎng)絡(luò)計(jì)算，推理成本會(huì)驟然提升。

而訓(xùn)練場(chǎng)景所需的算力會(huì)更強(qiáng)，這一階段，神經(jīng)網(wǎng)絡(luò)需要不止一臺(tái)服務(wù)器進(jìn)行大規(guī)模計(jì)算。由于模型訓(xùn)練有時(shí)間周期，算力滿額意味著GPU卡實(shí)現(xiàn)了100%資源利用，但訓(xùn)練任務(wù)比較小對(duì)算力要求不高，也得占用一張卡，基本處于閑置狀態(tài)。

據(jù)相關(guān)分析稱，OpenAI在GPT-4的訓(xùn)練中使用了大約2.15e25的FLOPS，在大約25000個(gè)A100 GPU上進(jìn)行了90到100天的訓(xùn)練，其算力利用率約為32%至36%。這種算力利用率低的情況在業(yè)內(nèi)更加普遍。

鈦媒體結(jié)合政策了解到的情況是，中國正主導(dǎo)構(gòu)建用于數(shù)據(jù)處理的高性能通訊網(wǎng)絡(luò)，以及多元異構(gòu)的芯片算力（包括GPU、CPU、以及國產(chǎn)芯片等）的調(diào)度和管理問題。

算力閑置的本質(zhì)邏輯

過去十年，分布式云計(jì)算構(gòu)建經(jīng)典的“削峰填谷”和“資源池化”，以更好地實(shí)現(xiàn)云服務(wù)的彈性調(diào)度。這種變化其實(shí)也在影響云服務(wù)的商業(yè)模式轉(zhuǎn)變。

一位咨詢機(jī)構(gòu)云服務(wù)合伙人曾對(duì)鈦媒體表示，過去云服務(wù)商依靠的正是虛機(jī)忙時(shí)和閑時(shí)調(diào)度，去獲得超額的利潤(rùn)回報(bào)，也就是“超賣”，此時(shí)各家比拼的是誰的調(diào)度技術(shù)更優(yōu)秀。

而大模型場(chǎng)景下，算力需要大規(guī)模集中式訓(xùn)練，服務(wù)器也無法被切分成單個(gè)虛機(jī)，怎樣設(shè)計(jì)算子和算力調(diào)度，怎樣滿足大模型應(yīng)用的高性能智算場(chǎng)景，這是云服務(wù)商在頭疼、大模型創(chuàng)企或其他中小團(tuán)隊(duì)在反復(fù)提要求的部分。

不少領(lǐng)域?qū)嵺`者或?qū)W術(shù)專家進(jìn)行分析，這一挑戰(zhàn)也體現(xiàn)在大模型平臺(tái)設(shè)計(jì)的工程性問題上。

例如，如何提升大規(guī)模分布式訓(xùn)練的計(jì)算效率一直是大模型預(yù)訓(xùn)練的一個(gè)核心問題。特別是在實(shí)際的AI集群環(huán)境中，會(huì)存在GPU之間的互聯(lián)帶寬受限或AI服務(wù)器之間的網(wǎng)絡(luò)互聯(lián)帶寬有限。

大模型參數(shù)量巨大，意味著對(duì)顯存的占用也大。過去小模型的結(jié)構(gòu)不易有效進(jìn)行計(jì)算和通信，但大模型規(guī)模已在TB級(jí)別，GPU顯存大小基本在80G（以英偉達(dá)A100為例），單個(gè)GPU無法完全容納整個(gè)模型訓(xùn)練，采用分布式訓(xùn)練是必然。這也同時(shí)導(dǎo)致了GPU通信問題，由于卡與卡之間存在的通信開銷，增加一倍卡并不能帶來線性的性能加速。

此外，卡數(shù)量增多后，過熱、故障就會(huì)一定比例出現(xiàn)，這往往會(huì)導(dǎo)致訓(xùn)練中斷、梯度爆炸、算法重跑一遍等，模型訓(xùn)練成本也會(huì)居高不下。

鈦媒體注意到，業(yè)內(nèi)出現(xiàn)了諸多專門為大規(guī)模并行計(jì)算設(shè)計(jì)的高性能分布式訓(xùn)練框架，并伴隨大模型技術(shù)的深化而逐步創(chuàng)新。

有眾所周知的大數(shù)據(jù)開發(fā)引擎Spark，專為深度學(xué)習(xí)開發(fā)的PyTorch，目前Pytorch官方也同樣開發(fā)了分布式訓(xùn)練框架Accelerate供AI人士使用。而UC Berkeley RISELa開源的Ray（據(jù)稱也是ChatGPT背后在使用的框架）和云托管產(chǎn)品AnyScale，微軟開源的深度學(xué)習(xí)庫DeepSpeed也備受歡迎。在從業(yè)者看來，盡管分布式訓(xùn)練框架非常多，但主流方案還是PyTorch+Megatron-LM+DeepSpeed。

目前在國內(nèi)也有類似的分布式訓(xùn)練框架，例如潞晨科技的ColossalAI、一流科技的OneFlow，而對(duì)于國內(nèi)在煉大模型的頭部互聯(lián)網(wǎng)廠商，如阿里的EPL（原名Whale）、華為的MindSpore、騰訊的AngelPTM等，市面上已有的框架并不能完全滿足其訴求，也會(huì)設(shè)計(jì)相應(yīng)的軟件棧用于自身基礎(chǔ)設(shè)施、硬件設(shè)施進(jìn)行進(jìn)一步定制和開發(fā)。

提高資源利用，分布式還能怎么創(chuàng)新？

基于GPU實(shí)現(xiàn)并行處理是常見手段。大模型訓(xùn)練中存在幾種經(jīng)典的分布式并行范式，分別為流水線并行（Pipeline Parallelism），數(shù)據(jù)并行（Data Parallelism）和張量并行（Tensor Parallesim）。微軟開源的分布式訓(xùn)練框架FastSpeed就融合了這三種并行范式。

浪潮信息人工智能軟件研發(fā)總監(jiān)吳韶華的主張是，相比于經(jīng)典的三維并用（張量并行+流水線并行+數(shù)據(jù)并行）方法，源2.0在三維并行策略的基礎(chǔ)上提出了非均勻流水并行+優(yōu)化器參數(shù)并行（ZeRO）+數(shù)據(jù)并行+損失計(jì)算分塊的分布式計(jì)算方法。

這種計(jì)算方式能有效降低大模型訓(xùn)練過程中對(duì)于節(jié)點(diǎn)內(nèi)AI芯片間通訊帶寬的需求，有更廣的適應(yīng)性。對(duì)帶寬的需求更小，同時(shí)也能獲得非常高的性能表現(xiàn)。同時(shí)結(jié)合優(yōu)化器參數(shù)并行，進(jìn)一步降低內(nèi)存需求，從而降低流水線路數(shù)，最大限度地合理利用計(jì)算資源，實(shí)現(xiàn)存儲(chǔ)和計(jì)算的總體最佳性能。

他解釋稱，傳統(tǒng)方式的內(nèi)存分布在各個(gè)階段非常不均衡，往往在第一階段，其內(nèi)存已經(jīng)達(dá)到GPU上限，模型訓(xùn)練需要更多的計(jì)算設(shè)備和更長(zhǎng)的流水并行，性能也不高。而非均勻流水方法，就是在劃分流水時(shí)不再采用均勻劃分方式，而是根據(jù)內(nèi)存需求實(shí)現(xiàn)比較均勻的分配，以滿足在有限硬件設(shè)備的模型訓(xùn)練。這種方式可有效緩解流水線頭部與尾部的內(nèi)存瓶頸，讓模型在流水并行各階段的內(nèi)存占用量分布更均衡。

2023年，浪潮信息AI團(tuán)隊(duì)相繼研發(fā)了OGAI大模型智算軟件棧、源2.0大模型，從軟硬協(xié)同層面去持續(xù)提升基礎(chǔ)大模型的能力，同時(shí)通過開放算力發(fā)展生態(tài)去探索可能突破的場(chǎng)景。經(jīng)過驗(yàn)證，源2.0大模型算力集群的線性擴(kuò)展效率遠(yuǎn)高于同類千億參數(shù)大模型。結(jié)合實(shí)踐數(shù)據(jù)，浪潮信息協(xié)助客戶將大模型訓(xùn)練的GPU峰值效率從30%提升至54%。

搶購算力，還沒考慮怎么用

參照GenAI的整體走向，無論是提高模型參數(shù)量，還是提高數(shù)據(jù)質(zhì)量規(guī)模，算力依舊是支撐大模型智能水平的核心驅(qū)力。要用足夠大的算力，去支撐起足夠精準(zhǔn)的模型泛化。但摩爾定律放緩在說明某些現(xiàn)實(shí)問題：大模型訓(xùn)練所需算力，已經(jīng)遠(yuǎn)超硬件加速器的處理速度，同時(shí)帶來的能源問題、數(shù)據(jù)中心的能耗問題，還浮于冰面之下。

而中國市場(chǎng)，相較于美國整體上還是會(huì)有一些差距，主流的算力芯片和加速能力基本來自于英偉達(dá)，客戶對(duì)國產(chǎn)芯片作為備選方案的需求仍然不足。

某靠近底層硬件研發(fā)的AI從業(yè)者在探討中對(duì)鈦媒體指出，“適配都存在一定的難度，也就是說想要做這件事就必須有額外的投入。國產(chǎn)GPU廠商也會(huì)考慮幾點(diǎn)因素：一是用戶對(duì)國產(chǎn)芯片這件事情的必要性，二是業(yè)務(wù)目標(biāo)是否能達(dá)成；三是性能是否會(huì)有比較大的提升。”

這其實(shí)就帶來個(gè)問題，如果選擇適配國產(chǎn)GPU會(huì)做軟件適配或更上層的模型能力，勢(shì)必需要一定的時(shí)間，有些企業(yè)仍會(huì)通過諸多合規(guī)渠道購買芯片?；蛘?，某些使用規(guī)模不大的實(shí)驗(yàn)室也會(huì)采用英偉達(dá)的消費(fèi)級(jí)產(chǎn)品RTX 4090，這種方式性價(jià)比高，主要用于推理。

不過，這位從業(yè)者還注意到，“有些企業(yè)囤了很多先進(jìn)的高性能芯片，但大家訂購的第一想法其實(shí)并沒有考慮到怎么使用，或者說對(duì)于怎么用好這個(gè)邏輯上多少存在些問題。”

在新一輪超級(jí)周期中，GenAI無疑是企業(yè)競(jìng)爭(zhēng)的重點(diǎn)。企業(yè)仍需加大硬實(shí)力投入，算力資源優(yōu)化的同時(shí)，也正時(shí)刻關(guān)注算法、數(shù)據(jù)帶給模型增強(qiáng)的突破。

現(xiàn)如今預(yù)訓(xùn)練大模型的算法框架依然是基于Transformer經(jīng)典架構(gòu)，Transformer優(yōu)勢(shì)在于解決了原有循環(huán)神經(jīng)網(wǎng)絡(luò)無法理解上下文的問題，但Transformer同樣存在局限性或者可優(yōu)化的空間。

正如某AI大模型早期從業(yè)者曾對(duì)鈦媒體強(qiáng)調(diào)，“從某些具體落地性上，算法比算力可能更為重要，我們會(huì)針對(duì)場(chǎng)景做很多算法上的創(chuàng)新，而這些問題往往是算力解決不了的。在沒有更好算法的時(shí)候，你其實(shí)是不知道1000個(gè)GPU能帶來多大的效果?！?/p>

算力，是最大的幫手，也成為最大的挑戰(zhàn)。

小編推薦下載