【#區(qū)塊鏈# #8萬(wàn)億訓(xùn)練數(shù)據(jù),性能超LLaMA-2,英偉達(dá)推出Nemotron-4 15B#】
報(bào)道:文章來(lái)源:AIGC開(kāi)放社區(qū)
英偉達(dá)的研究人員推出了Nemotron-4 15B。這是一個(gè)擁有150億參數(shù)的大語(yǔ)言模型,并基于8萬(wàn)億文本標(biāo)注數(shù)據(jù)進(jìn)行了預(yù)訓(xùn)練。
在數(shù)學(xué)、多語(yǔ)言分類(lèi)和代碼等測(cè)試評(píng)估中,Nemotron-4 15B在7個(gè)領(lǐng)域中的4個(gè)超過(guò)了所有現(xiàn)役同類(lèi)大小的開(kāi)源模型,并且在其他領(lǐng)域中也表現(xiàn)出了優(yōu)秀的性能。
技術(shù)報(bào)告地址:https://arxiv.org/abs/2402.16819
Nemotron-4 15B架構(gòu)
Nemotron-4 15B使用了標(biāo)準(zhǔn)的Transformer架構(gòu),這是一種基于自注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)。
Transformer由多個(gè)相同的層組成,每個(gè)層都有多頭自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)。自注意力機(jī)制使模型能夠在輸入序列中捕捉到不同位置之間的依賴(lài)關(guān)系,以及輸入序列中各個(gè)位置之間的關(guān)聯(lián)性。前饋神經(jīng)網(wǎng)絡(luò)則通過(guò)多層感知機(jī),對(duì)每個(gè)位置的表示進(jìn)行非線(xiàn)性變換。
解碼器:Nemotron-4 15B只使用了Transformer的部分解碼器。解碼器主要負(fù)責(zé)將輸入序列轉(zhuǎn)換為輸出序列,通過(guò)自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)對(duì)輸入序列進(jìn)行處理。
注意力機(jī)制:在Nemotron-4 15B中,注意力機(jī)制被用于自注意力和全局注意力。自注意力用于學(xué)習(xí)輸入序列內(nèi)部的依賴(lài)關(guān)系,而全局注意力用于學(xué)習(xí)輸入序列與輸出序列之間的對(duì)應(yīng)關(guān)系。
通過(guò)注意力機(jī)制,模型能夠聚焦于輸入序列中與當(dāng)前位置相關(guān)的信息,從而更好地理解上下文。
多頭注意力:在Nemotron-4 15B中,每個(gè)注意力機(jī)制都有多個(gè)注意力頭,每個(gè)頭都可以學(xué)習(xí)到不同的關(guān)注信息。
通過(guò)使用多頭注意力,模型能夠同時(shí)關(guān)注輸入序列中的不同方面,從而提高了模型的表達(dá)能力和泛化能力。
位置編碼:位置編碼是一種用于為輸入序列中的每個(gè)位置添加位置信息的技術(shù)。Nemotron-4 15B使用了旋轉(zhuǎn)位置編碼,使模型能夠在處理輸入序列時(shí)考慮到位置信息,從而更好地捕捉到序列中的順序關(guān)系。
Nemotron-4 15B數(shù)據(jù)與訓(xùn)練流程
Nemotron-4 15B的訓(xùn)練數(shù)據(jù)集由各種類(lèi)型的數(shù)據(jù)組成,其中包括英語(yǔ)自然語(yǔ)言數(shù)據(jù)(70%)、多語(yǔ)言自然語(yǔ)言數(shù)據(jù)(15%)和源代碼數(shù)據(jù)(15%)。
為了使生成的內(nèi)容更準(zhǔn)確性,在構(gòu)建預(yù)訓(xùn)練語(yǔ)料庫(kù)時(shí)移除了重復(fù)數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行了高質(zhì)量、精細(xì)過(guò)濾。
在訓(xùn)練Nemotron-4 15B的過(guò)程中,研究人員利用了384個(gè)DGX H100節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)包含8個(gè)基于NVIDIA Hopper架構(gòu)的H100 80GB SXM5 GPU。并采用了8路張量并行和數(shù)據(jù)并行(data parallelism)的組合,以及分布式優(yōu)化器進(jìn)行分片。
在英語(yǔ)、數(shù)學(xué)推理、多語(yǔ)言分類(lèi)、代碼等測(cè)試任務(wù)中,Nemotron-4 15B在英語(yǔ)評(píng)估領(lǐng)域優(yōu)于LLaMA-2 34B和Mistral 7B,并與QWEN 14B和Gemma 7B達(dá)到了相近的性能。
此外,Nemotron-4 15B在廣泛的代碼語(yǔ)言中表現(xiàn)出了更高的準(zhǔn)確率,尤其在資源稀缺的編程語(yǔ)言上超過(guò)了Starcoder和Mistral 7B等模型。
本文素材來(lái)源Nemotron-4 15B技術(shù)報(bào)告,如有侵權(quán)請(qǐng)聯(lián)系刪除
小編推薦下載
藝萬(wàn)億 購(gòu)物優(yōu)惠
b不b 動(dòng)作冒險(xiǎn)
超雞2 動(dòng)作冒險(xiǎn)
立達(dá)微職8 生活實(shí)用
15分 購(gòu)物優(yōu)惠
手機(jī)性能檢測(cè) 學(xué)習(xí)工具
中超風(fēng)云2 體育競(jìng)技
超本能戰(zhàn)斗2 動(dòng)作冒險(xiǎn)
相關(guān)推薦
相關(guān)文章
更多>>資訊排行
同類(lèi)軟件下載
智能B超 學(xué)習(xí)工具
手機(jī)B超 娛樂(lè)消遣
網(wǎng)暢B2B2C 購(gòu)物優(yōu)惠
嬰客B2B 購(gòu)物優(yōu)惠
商務(wù)鏈B2B 金融理財(cái)
超達(dá)幣 金融理財(cái)
快樂(lè)閱讀4B 學(xué)習(xí)工具
衣聯(lián)B2B 購(gòu)物優(yōu)惠
云聚B2B 生活實(shí)用
發(fā)鋼網(wǎng)B2B 生活實(shí)用
熱門(mén)標(biāo)簽