hao86下載站:值得大家信賴的游戲下載站!

首頁 > 區(qū)塊鏈 > 全球最強(qiáng)開源大模型一夜易主!谷歌Gemma 7B碾壓Llama 2 13B,今夜重燃開源之戰(zhàn)

全球最強(qiáng)開源大模型一夜易主!谷歌Gemma 7B碾壓Llama 2 13B,今夜重燃開源之戰(zhàn)

時(shí)間:2024-02-22 17:14:37
來源:hao86下載
區(qū)塊鏈

【#區(qū)塊鏈# #全球最強(qiáng)開源大模型一夜易主!谷歌Gemma 7B碾壓Llama 2 13B,今夜重燃開源之戰(zhàn)#】

文章來源:新智元

圖片來源:由無界AI生成

一聲炸雷深夜炸響,谷歌居然也開源LLM了?!

這次,重磅開源的Gemma有2B和7B兩種規(guī)模,并且采用了與Gemini相同的研究和技術(shù)構(gòu)建。

有了Gemini同源技術(shù)的加持,Gemma不僅在相同的規(guī)模下實(shí)現(xiàn)SOTA的性能。

而且更令人印象深刻的是,還能在關(guān)鍵基準(zhǔn)上越級碾壓更大的模型,比如Llama 2 13B。

與此同時(shí),谷歌還放出了16頁的技術(shù)報(bào)告。

技術(shù)報(bào)告地址:https://storage.googleapis.com/deepmind-media/gemma/gemma-report.pdf

谷歌表示,Gemma這個(gè)名字源自拉丁語「gemma」,也就是「寶石」的意思,似乎是在象征著它的珍貴性。

歷史上,Transformers、TensorFlow、BERT、T5、JAX、AlphaFold和AlphaCode,都是谷歌為開源社區(qū)貢獻(xiàn)的創(chuàng)新。

谷歌:今天我就來給你表演一個(gè)什么是Open AI

而谷歌今天在全球范圍內(nèi)同步推出的Gemma,必然會再一次掀起構(gòu)建開源AI的熱潮。

同時(shí)也坐實(shí)了OpenAI「唯一ClosedAI」的名頭。

OpenAI最近剛因?yàn)镾ora火到爆,Llame據(jù)稱也要有大動(dòng)作,谷歌這就又搶先一步。硅谷大廠,已經(jīng)卷翻天了!

谷歌:開源閉源我全都要

Hugging Face CEO也跟帖祝賀。

還貼出了Gemma登上Hugging Face熱榜的截圖。

Keras作者Fran?ois Chollet直言:最強(qiáng)開源大模型,今日易主了。

有網(wǎng)友已經(jīng)親自試用過,表示Gemma 7B真是速度飛快。

谷歌簡直是用Gemini拳打GPT-4,用Gemma腳踢Llama 2!

網(wǎng)友們也是看熱鬧不嫌事大,召喚Mistral AI和OpenAI今晚趕快來點(diǎn)大動(dòng)作,別讓谷歌真的搶了頭條。(手動(dòng)狗頭)

同規(guī)模刷新SOTA,越級單挑Llama 2 13B

可以看到,Gemma-7B模型在涵蓋一般語言理解、推理、數(shù)學(xué)和編碼的8項(xiàng)基準(zhǔn)測試中,性能已經(jīng)超越了Llama 2 7B和13B!

并且,它也超越了Mistral 7B模型的性能,尤其是在數(shù)學(xué)、科學(xué)和編碼相關(guān)任務(wù)中。

在安全性方面,經(jīng)過指令微調(diào)的Gemma-2B IT和 Gemma-7B IT模型,在人類偏好評估中都超過了Mistal-7B v0.2模型。

特別是Gemma-7B IT模型,它在理解和執(zhí)行具體指令方面,表現(xiàn)得更加出色。

一整套工具:跨框架、工具和硬件進(jìn)行優(yōu)化

這次,除了模型本身,谷歌還提供了一套工具幫助開發(fā)者,確保Gemma模型負(fù)責(zé)任的使用,幫助開發(fā)者用Gemma構(gòu)建更安全的AI應(yīng)用程序。

- 谷歌為JAX、PyTorch和TensorFlow提供了完整的工具鏈,支持模型推理和監(jiān)督式微調(diào)(SFT),并且完全兼容最新的Keras 3.0。

- 通過預(yù)置的Colab和Kaggle notebooks,以及與Hugging Face、MaxText、NVIDIA NeMo和TensorRT-LLM等流行工具的集成,用戶可以輕松開始探索Gemma。

- Gemma模型既可以在個(gè)人筆記本電腦和工作站上運(yùn)行,也可以在Google Cloud上部署,支持在Vertex AI和Google Kubernetes Engine (GKE) 上的簡易部署。

- 谷歌還對Gemma進(jìn)行了跨平臺優(yōu)化,確保了它在NVIDIA GPU和Google Cloud TPU等多種AI硬件上的卓越性能。

并且,使用條款為所有組織提供了負(fù)責(zé)任的商業(yè)使用和分發(fā)權(quán)限,不受組織規(guī)模的限制。

但,沒有全勝

不過,Gemma并沒有能夠在所有的榜單中,都拿下SOTA。

在官方放出的評測中,Gemma 7B在MMLU、HellaSwag、SIQA、CQA、ARC-e、HumanEval、MBPP、GSM8K、MATH和AGIEval中,成功擊敗了Llama 2 7B和13B模型。

相比之下,Gemma 7B在Boolq測試中,只與Mistral 7B打了個(gè)平手。

而在PIQA、ARC-c、Winogrande和BBH中,則不敵Mistral 7B。

在OBQA和trivalent QA中,更是同時(shí)被7B和13B規(guī)模的Llama 2 7B斬于馬下。


技術(shù)報(bào)告

谷歌這次發(fā)布的兩個(gè)版本的Gemma模型,70 億參數(shù)的模型用于GPU和TPU上的高效部署和開發(fā),20億參數(shù)的模型用于CPU和端側(cè)應(yīng)用程序。

在18個(gè)基于文本的任務(wù)中的11個(gè)中,Gemma都優(yōu)于相似參數(shù)規(guī)模的開源模型,例如問答、常識推理、數(shù)學(xué)和科學(xué)、編碼等任務(wù)。

模型架構(gòu)方面,Gemma在Transformer的基礎(chǔ)上進(jìn)行了幾項(xiàng)改進(jìn),從而在處理復(fù)雜任務(wù)時(shí)能夠展現(xiàn)出更加出色的性能和效率。

- 多查詢注意力機(jī)制

其中,7B模型采用了多頭注意力機(jī)制,而2B模型則使用了多查詢注意力機(jī)制。結(jié)果顯示,這些特定的注意力機(jī)制能夠在不同的模型規(guī)模上提升性能。

- RoPE嵌入

與傳統(tǒng)的絕對位置嵌入不同,模型在每一層都使用了旋轉(zhuǎn)位置嵌入技術(shù),并且在模型的輸入和輸出之間共享嵌入,這樣做可以有效減少模型的大小。

- GeGLU激活函數(shù)

將標(biāo)準(zhǔn)的ReLU激活函數(shù)替換成GeGLU激活函數(shù),可以提升模型的表現(xiàn)。

- 歸一化化位置(Normalizer Location)

每個(gè)Transformer子層的輸入和輸出都進(jìn)行了歸一化處理。這里采用的是RMSNorm作為歸一化層,以確保模型的穩(wěn)定性和效率。

架構(gòu)的核心參數(shù)如下:


兩種規(guī)模的參數(shù)如下:


預(yù)訓(xùn)練

訓(xùn)練數(shù)據(jù)

Gemma 2B和7B分別針對來自網(wǎng)絡(luò)文檔、數(shù)學(xué)和代碼的主要英語數(shù)據(jù)的2T和6Ttoken,進(jìn)行了訓(xùn)練。

與Gemini不同,這些模型不是多模態(tài)的,也沒有針對多語言任務(wù)的SOTA進(jìn)行訓(xùn)練。

谷歌使用了Gemini的SentencePiece分詞器的子集,來實(shí)現(xiàn)兼容性。

指令微調(diào)

團(tuán)隊(duì)對Gemma 2B和7B模型進(jìn)行了微調(diào),包括有監(jiān)督的微調(diào)(SFT)和基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)。

在有監(jiān)督的微調(diào)階段,研究者使用了一個(gè)由純文本、英文、由人工和機(jī)器生成的問題-答案對組成的數(shù)據(jù)集。

在強(qiáng)化學(xué)習(xí)階段,則是使用了一個(gè)基于英文偏好數(shù)據(jù)訓(xùn)練出的獎(jiǎng)勵(lì)模型,以及一套精心挑選的高質(zhì)量提示作為策略。

研究者發(fā)現(xiàn),這兩個(gè)階段對于提升模型在自動(dòng)評估和人類偏好評估中的表現(xiàn),至關(guān)重要。

監(jiān)督微調(diào)

研究者根據(jù)基于LM的并行評估,選擇了數(shù)據(jù)混合物進(jìn)行監(jiān)督微調(diào)。

給定一組保留prompt,研究者會從測試模型中生成響應(yīng),從基準(zhǔn)模型中生成對相同提示的響應(yīng),隨機(jī)洗牌,然后要求一個(gè)更大、能力更強(qiáng)的模型在兩種響應(yīng)之間表達(dá)偏好。

研究者構(gòu)建了不同的提示集,以突出特定的能力,如遵循指令、實(shí)事求是、創(chuàng)造性和安全性。

我們使用了不同的基于LM的自動(dòng)評委,采用了一系列技術(shù),如思維鏈提示、使用評分標(biāo)準(zhǔn)和章程等,以便與人類偏好保持一致。

RLHF

研究者進(jìn)一步利用來自人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),對已經(jīng)進(jìn)行過有監(jiān)督微調(diào)的模型進(jìn)行了優(yōu)化。

他們從人類評估者那里收集他們的偏好選擇,并在 Bradley-Terry 模型的基礎(chǔ)上,訓(xùn)練了一個(gè)獎(jiǎng)勵(lì)函數(shù),這與Gemini項(xiàng)目的做法相似。

研究者采用了一個(gè)改進(jìn)版的REINFORCE算法,加入了 Kullback–Leibler 正則化項(xiàng),目的是讓策略優(yōu)化這個(gè)獎(jiǎng)勵(lì)函數(shù),同時(shí)保持與最初調(diào)整模型的一致性。

與之前的有監(jiān)督微調(diào)階段相似,為了調(diào)整超參數(shù)并進(jìn)一步防止獎(jiǎng)勵(lì)機(jī)制被濫用,研究者使用了一個(gè)高性能模型作為自動(dòng)評估工具,并將其與基準(zhǔn)模型進(jìn)行了直接對比。

性能評估

自動(dòng)評估

谷歌在多個(gè)領(lǐng)域?qū)emma進(jìn)行了性能評估,包括物理和社會推理、問答、編程、數(shù)學(xué)、常識推理、語言建模、閱讀理解等。

Gemma2B和7B模型與一系列學(xué)術(shù)基準(zhǔn)測試中的多個(gè)外部開源大語言模型進(jìn)行了比較。

在MMLU基準(zhǔn)測試中,Gemma 7B模型不僅超過了所有規(guī)模相同或更小的開源模型,還超過了一些更大的模型,包括Llama 2 13B。

然而,基準(zhǔn)測試的制定者評估人類專家的表現(xiàn)為89.8%,而Gemini Ultra是首個(gè)超越此標(biāo)準(zhǔn)的模型,這表明Gemma在達(dá)到Gemini和人類水平的性能上,還有很大的提升空間。

并且,Gemma模型在數(shù)學(xué)和編程的基準(zhǔn)測試中表現(xiàn)尤為突出。

在通常用于評估模型分析能力的數(shù)學(xué)任務(wù)中,Gemma 模型在GSM8K和更具挑戰(zhàn)性的 MATH基準(zhǔn)測試上至少領(lǐng)先其他模型10分。

同樣,在HumanEval上,它們至少領(lǐng)先其他開源模型6分。

Gemma甚至在MBPP上超過了專門進(jìn)行代碼微調(diào)的CodeLLaMA 7B模型的性能(CodeLLaMA得分為41.4%,而 Gemma 7B得分為44.4%)。

記憶評估

近期研究發(fā)現(xiàn),即便是經(jīng)過精心對齊的人工智能模型,也可能遭受新型對抗攻擊,這種攻擊能夠規(guī)避現(xiàn)有的對齊措施。

這類攻擊有可能使模型行為異常,有時(shí)甚至?xí)?dǎo)致模型重復(fù)輸出它在訓(xùn)練過程中記住的數(shù)據(jù)。

因此,研究者專注于研究模型的「可檢測記憶」能力,這被認(rèn)為是評估模型記憶能力的一個(gè)上限,并已在多項(xiàng)研究中作為通用定義。

研究者對Gemma預(yù)訓(xùn)練模型進(jìn)行了記憶測試。

具體來說,他們從每個(gè)數(shù)據(jù)集中隨機(jī)選擇了10,000篇文檔,并使用文檔開頭的50個(gè)詞元作為模型的prompt。

測試重點(diǎn)是精確記憶,即如果模型能夠基于輸入,精確地生成接下來的50token,與原文完全一致,便認(rèn)為模型「記住了」這段文本。

此外,為了探測模型是否能夠以改寫的形式記憶信息,研究者還測試了模型的「近似記憶」能力,即允許在生成的文本和原文之間存在最多10%的編輯差距。

在圖2中,是Gemma的測試結(jié)果與體量相近的PaLM和PaLM 2模型的對比。

可以發(fā)現(xiàn),Gemma的記憶率明顯更低(見圖2左側(cè))。

不過,通過對整個(gè)預(yù)訓(xùn)練數(shù)據(jù)集的「總記憶量」進(jìn)行估算,可得一個(gè)更為準(zhǔn)確的評估結(jié)果(見圖2右側(cè)):Gemma在記憶訓(xùn)練數(shù)據(jù)方面的表現(xiàn)與PaLM相當(dāng)。

個(gè)人信息的記憶化問題尤為關(guān)鍵。如圖3所示,研究者并未發(fā)現(xiàn)有記憶化的敏感信息。

雖然確實(shí)發(fā)現(xiàn)了一些被歸類為「個(gè)人信息」的數(shù)據(jù)被記憶,但這種情況發(fā)生的頻率相對較低。

而且這些工具往往會產(chǎn)生許多誤報(bào)(因?yàn)樗鼈儍H通過匹配模式而不考慮上下文),這意味著研究者發(fā)現(xiàn)的個(gè)人信息量可能被高估了。

總結(jié)討論

總的來說,Gemma模型在對話、邏輯推理、數(shù)學(xué)和代碼生成等多個(gè)領(lǐng)域,都有所提升。

在MMLU(64.3%)和MBPP(44.4%)的測試中,Gemma不僅展現(xiàn)了卓越的性能,還顯示了開源大語言模型性能進(jìn)一步提升的空間。

除了在標(biāo)準(zhǔn)測試任務(wù)上取得的先進(jìn)性能,谷歌也期待與社區(qū)共同推動(dòng)這一領(lǐng)域的發(fā)展。

Gemma從Gemini模型計(jì)劃中學(xué)到了很多,包括編碼、數(shù)據(jù)處理、架構(gòu)設(shè)計(jì)、指令優(yōu)化、基于人類反饋的強(qiáng)化學(xué)習(xí)以及評估方法。

同時(shí),谷歌再次強(qiáng)調(diào)使用大語言模型時(shí)存在的一系列限制。

盡管在標(biāo)準(zhǔn)測試任務(wù)上表現(xiàn)優(yōu)異,但要?jiǎng)?chuàng)建出既穩(wěn)定又安全、能夠可靠執(zhí)行預(yù)期任務(wù)的模型,還需要進(jìn)一步的研究,包括確保信息的準(zhǔn)確性、模型的目標(biāo)對齊、處理復(fù)雜邏輯推理,以及增強(qiáng)模型對惡意輸入的抵抗力。

團(tuán)隊(duì)表示,正如Gemini所指出的,需要更具挑戰(zhàn)性和魯棒性的測試基準(zhǔn)。

團(tuán)隊(duì)成員

核心貢獻(xiàn)者:

其他貢獻(xiàn)者:

產(chǎn)品經(jīng)理、項(xiàng)目經(jīng)理、執(zhí)行贊助、負(fù)責(zé)人和技術(shù)負(fù)責(zé)人:

參考資料:
https://ai.google.dev/gemma/

小編推薦下載

相關(guān)文章

更多>>

資訊排行

同類軟件下載