【#區(qū)塊鏈# #給Transformer降降秩,移除特定層90%以上組件LLM性能不減#】
文章來(lái)源:機(jī)器之心
MIT、微軟聯(lián)合研究:不需要額外訓(xùn)練,也能增強(qiáng)大語(yǔ)言模型的任務(wù)性能并降低其大小。
圖片來(lái)源:由無(wú)界 AI生成
在大模型時(shí)代,Transformer 憑一己之力撐起了整個(gè)科研領(lǐng)域。自發(fā)布以來(lái),基于 Transformer 的 LLM 在各種任務(wù)上表現(xiàn)出卓越的性能,其底層的 Transformer 架構(gòu)已成為自然語(yǔ)言建模和推理的最先進(jìn)技術(shù),并在計(jì)算機(jī)視覺(jué)和強(qiáng)化學(xué)習(xí)等領(lǐng)域顯示出強(qiáng)有力的前景。
然而,當(dāng)前 Transformer 架構(gòu)非常龐大,通常需要大量計(jì)算資源來(lái)進(jìn)行訓(xùn)練和推理。?
這是有意為之的,因?yàn)榻?jīng)過(guò)更多參數(shù)或數(shù)據(jù)訓(xùn)練的 Transformer 顯然比其他模型更有能力。盡管如此,越來(lái)越多的工作表明,基于 Transformer 的模型以及神經(jīng)網(wǎng)絡(luò)不需要所有擬合參數(shù)來(lái)保留其學(xué)到的假設(shè)。?
一般來(lái)講,在訓(xùn)練模型時(shí)大規(guī)模過(guò)度參數(shù)化似乎很有幫助,但這些模型可以在推理之前進(jìn)行大幅剪枝;有研究表明神經(jīng)網(wǎng)絡(luò)通??梢匀コ?90% 以上的權(quán)重,而性能不會(huì)出現(xiàn)任何顯著下降。這種現(xiàn)象促使研究者開(kāi)始轉(zhuǎn)向有助于模型推理的剪枝策略研究。
來(lái)自 MIT、微軟的研究者在論文《 The Truth is in There: Improving Reasoning in Language Models with Layer-Selective Rank Reduction 》中提出了一個(gè)令人驚訝的發(fā)現(xiàn),即在 Transformer 模型的特定層上進(jìn)行仔細(xì)的剪枝可以顯著提高模型在某些任務(wù)的性能。
該研究將這種簡(jiǎn)單的干預(yù)措施稱(chēng)之為 LASER( LAyer SElective Rank reduction ,層選擇性降秩),通過(guò)奇異值分解來(lái)選擇性地減少 Transformer 模型中特定層的學(xué)習(xí)權(quán)重矩陣的高階分量,從而顯著提高 LLM 的性能,這種操作可以在模型訓(xùn)練完成后進(jìn)行,并且不需要額外的參數(shù)或數(shù)據(jù)。
操作過(guò)程中,權(quán)重的減少是在模型特定權(quán)重矩陣和層中執(zhí)行的,該研究還發(fā)現(xiàn)許多類(lèi)似矩陣都可以顯著減少權(quán)重,并且在完全刪除 90% 以上的組件之前通常不會(huì)觀(guān)察到性能下降。
該研究還發(fā)現(xiàn)這些減少可以顯著提高準(zhǔn)確率,這一發(fā)現(xiàn)似乎不僅限于自然語(yǔ)言,在強(qiáng)化學(xué)習(xí)中也發(fā)現(xiàn)了性能提升。
此外,該研究嘗試推斷出高階組件中存儲(chǔ)的內(nèi)容是什么,以便進(jìn)行刪除從而提高性能。該研究發(fā)現(xiàn)經(jīng)過(guò) LASER 回答正確的問(wèn)題,但在干預(yù)之前,原始模型主要用高頻詞 (如 “the”、“of” 等) 來(lái)回應(yīng),這些詞甚至與正確答案的語(yǔ)義類(lèi)型都不相同,也就是說(shuō)這些成分在未經(jīng)干預(yù)的情況下會(huì)導(dǎo)致模型生成一些不相干的高頻詞匯。
然而,通過(guò)進(jìn)行一定程度的降秩后,模型的回答可以轉(zhuǎn)變?yōu)檎_的。
為了理解這一點(diǎn),該研究還探索了其余組件各自編碼的內(nèi)容,他們僅使用其高階奇異向量來(lái)近似權(quán)重矩陣。結(jié)果發(fā)現(xiàn)這些組件描述了與正確答案相同語(yǔ)義類(lèi)別的不同響應(yīng)或通用高頻詞。
這些結(jié)果表明,當(dāng)嘈雜的高階分量與低階分量組合時(shí),它們相互沖突的響應(yīng)會(huì)產(chǎn)生一種平均答案,這可能是不正確的。圖 1 直觀(guān)地展示了 Transformer 架構(gòu)和 LASER 遵循的程序。在這里,特定層的多層感知器(MLP)的權(quán)重矩陣被替換為其低秩近似。
研究者詳細(xì)介紹了 LASER 干預(yù)。單步 LASER 干預(yù)由包含參數(shù) τ、層數(shù)?和降秩 ρ 的三元組 (τ, ?, ρ) 定義。這些值共同描述了哪個(gè)矩陣會(huì)被它們的低秩近似所替代以及近似的嚴(yán)格程度。研究者依賴(lài)參數(shù)類(lèi)型對(duì)他們將要干預(yù)的矩陣類(lèi)型進(jìn)行分類(lèi)。
研究者重點(diǎn)關(guān)注 W = {W_q, W_k, W_v, W_o, U_in, U_out} 中的矩陣,它由 MLP 和注意力層中的矩陣組成。層數(shù)表示了研究者干預(yù)的層(第一層從 0 開(kāi)始索引)。例如 Llama-2 有 32 層,因此 ? ∈ {0, 1, 2,???31}。
最終,ρ ∈ [0, 1) 描述了在做低秩近似時(shí)應(yīng)該保留最大秩的哪一部分。例如設(shè)
則該矩陣的最大秩為 d。研究者將它替換為?ρ?d?- 近似。
下圖 1 為 LASER 示例,該圖中,τ = U_in 和? = L 表示在 L^th 層的 Transformer 塊中來(lái)更新 MLP 第一層的權(quán)重矩陣。另一個(gè)參數(shù)控制 rank-k 近似中的 k。
LASER 可以限制網(wǎng)絡(luò)中某些信息的流動(dòng),并出乎意料地產(chǎn)生顯著的性能優(yōu)勢(shì)。這些干預(yù)也可以很容易組合起來(lái),比如以任何順序來(lái)應(yīng)用一組干預(yù)
LASER 方法只是對(duì)這類(lèi)干預(yù)進(jìn)行簡(jiǎn)單的搜索,并修改以帶來(lái)最大收益。不過(guò),還有很多其他方法可以將這些干預(yù)組合起來(lái),這是研究者未來(lái)工作的方向。
在實(shí)驗(yàn)部分,研究者使用了在 PILE 數(shù)據(jù)集上預(yù)訓(xùn)練的 GPT-J 模型,該模型的層數(shù)為 27,參數(shù)為 60 億。然后在 CounterFact 數(shù)據(jù)集上評(píng)估模型的行為,該數(shù)據(jù)集包含(主題、關(guān)系和答案)三元組的樣本,每個(gè)問(wèn)題提供了三個(gè)釋義 prompt。
首先是 CounterFact 數(shù)據(jù)集上對(duì) GPT-J 模型的分析。下圖 2 展示了在 Transformer 架構(gòu)中為每個(gè)矩陣應(yīng)用不同數(shù)量降秩的結(jié)果對(duì)數(shù)據(jù)集分類(lèi)損失的影響。其中每個(gè) Transformer 層都由一個(gè)兩層的小型 MLP 組成,輸入和輸出矩陣分別顯示。不同的顏色表示移除組件的不同百分比。
關(guān)于提升釋義的準(zhǔn)確度和穩(wěn)健性,如上圖 2 和下表 1 所示,研究者發(fā)現(xiàn),當(dāng)在單層上進(jìn)行降秩時(shí),GPT-J 模型在 CounterFact 數(shù)據(jù)集上的事實(shí)準(zhǔn)確度從 13.1% 增加到了 24.0%。需要注意一點(diǎn),這些改進(jìn)只是降秩的結(jié)果,并不涉及對(duì)模型的任何進(jìn)一步訓(xùn)練或微調(diào)。
數(shù)據(jù)集中的哪些事實(shí)會(huì)通過(guò)降秩恢復(fù)呢?研究者發(fā)現(xiàn),通過(guò)降秩恢復(fù)的事實(shí)極大可能很少出現(xiàn)在數(shù)據(jù)中,如下圖 3 所示。
高階組件存儲(chǔ)什么呢?研究者使用高階組件近似最終的權(quán)重矩陣(而不像 LASER 那樣使用低階組件來(lái)近似),如下圖 5 (a) 所示。當(dāng)使用不同數(shù)量的高階組件來(lái)近似矩陣時(shí),他們測(cè)量了真實(shí)答案相對(duì)于預(yù)測(cè)答案的平均余弦相似度,如下圖 5 (b) 所示。
最后,研究者評(píng)估了自身發(fā)現(xiàn)對(duì) 3 種不同的 LLM 在多項(xiàng)語(yǔ)言理解任務(wù)上的普遍性。對(duì)于每項(xiàng)任務(wù),他們通過(guò)生成準(zhǔn)確度、分類(lèi)準(zhǔn)確度和損失三種指標(biāo)來(lái)評(píng)估模型的性能。如上表 1 所示,即使降秩很大也不會(huì)導(dǎo)致模型準(zhǔn)確度下降,卻可以提升模型性能。
小編推薦下載
索降營(yíng)救3D 益智休閑
借風(fēng)偽原創(chuàng)降重 學(xué)習(xí)工具
鉆頭水眼壓降計(jì)算器 學(xué)習(xí)工具
90教練 學(xué)習(xí)工具
僵尸移除 動(dòng)作冒險(xiǎn)
魔法層 拍照攝影
90半 學(xué)習(xí)工具
90賺 購(gòu)物優(yōu)惠
相關(guān)推薦
相關(guān)文章
更多>>資訊排行
同類(lèi)軟件下載
早降重論文降重系統(tǒng) 學(xué)習(xí)工具
降龍外傳 角色扮演
降神計(jì)劃 動(dòng)作冒險(xiǎn)
螞蟻聚降 購(gòu)物優(yōu)惠
降重助手 學(xué)習(xí)工具
論文降重 學(xué)習(xí)工具
長(zhǎng)板速降 體育競(jìng)技
論文降重神器 學(xué)習(xí)工具
論文查重降重 學(xué)習(xí)工具
降神計(jì)劃蘋(píng)果版 動(dòng)作冒險(xiǎn)
熱門(mén)標(biāo)簽