【#區(qū)塊鏈# #多模態(tài)大模型學(xué)雜了能力反下降?新研究:MoE+通用專家解決沖突#】
文章來源:量子位
圖片來源:由無界 AI生成
微調(diào),能讓通用大模型更加適配具體的行業(yè)應(yīng)用。
但現(xiàn)在,研究人員們卻發(fā)現(xiàn):
對多模態(tài)大模型做“多任務(wù)指令微調(diào)”,大模型可能會“學(xué)得多錯得多”,因為不同任務(wù)之間的沖突,導(dǎo)致泛化能力下降。
舉個例子,多模態(tài)問答任務(wù)可能要求回復(fù)盡可能簡潔準(zhǔn)確,文檔理解任務(wù)卻會反過來要求大模型盡可能詳細(xì)地做出描述。
不同下游任務(wù)指令微調(diào)數(shù)據(jù)分布差異較大,導(dǎo)致一個大模型難以在多個下游任務(wù)中均達(dá)到最優(yōu)性能。
如何解決這個問題?
來自香港科技大學(xué)、南方科技大學(xué)和華為諾亞方舟實驗室的聯(lián)合研究團(tuán)隊,受MoE(混合專家模型)開源大模型Mixtral-8×7B的啟發(fā),提出利用稀疏專家模型,打造下游任務(wù)泛化性能更好、理解能力更強(qiáng)的多模態(tài)大模型。
具體細(xì)節(jié),一起來看。
為了驗證多模態(tài)指令微調(diào)中不同類型任務(wù)數(shù)據(jù)對模型性能的影響,研究人員將數(shù)據(jù)進(jìn)行如下劃分:
基于以上數(shù)據(jù),研究人員采用LoRA對InstructBLIP進(jìn)行微調(diào),獲得3個專家模型,并在其他數(shù)據(jù)(Flickr30k-圖像描述、GQA/SciQA/IconQA/TextVQA等不同類型視覺問答、HM/VSR等多模態(tài)分類或推理任務(wù))上進(jìn)行零樣本測試和評估。
從上圖(右)中可以看出,在指令微調(diào)中,并非采用全量數(shù)據(jù)會取得最好效果,相反,只有三個下游任務(wù)(GQA,VSR,TextVQA)在全量數(shù)據(jù)專家下表現(xiàn)最好。
這說明,對于大部分任務(wù)來說,在指令微調(diào)過程中引入其他任務(wù)的數(shù)據(jù),反而會降低模型性能,多模態(tài)指令微調(diào)存在任務(wù)沖突。
另一方面,實驗中觀察到,VQA和Captioning兩個專家模型,在各自任務(wù)中取得了相較于全量專家更好的表現(xiàn)。這樣的方法看似解決了任務(wù)沖突的問題,但存在以下局限:
為了解決以上局限,研究團(tuán)隊提出,可以利用稀疏專家模型(MoE),不同的專家處理不同的任務(wù),并設(shè)計一種數(shù)據(jù)劃分的方法,把相似的任務(wù)交給同一個專家處理。
在大型視覺-語言模型(LVLM)中,該文定義指令為所有的文本輸入,如上圖(左)C1-C4的文本。
這些指令描述了任務(wù)的意圖、要求。因此,作者使用Kmeans將所有的指令聚為64類。
如上圖(右)所示,指令的聚類信息可以有效表示數(shù)據(jù)的任務(wù)類型。這樣做省去了人力劃分?jǐn)?shù)據(jù)的成本。
和前面的任務(wù)專家相似,模型在該層的輸出同樣由凍結(jié)的LLM線性層以及微調(diào)的LoRA產(chǎn)生。
不同的是,這里利用數(shù)據(jù)的指令聚類信息來對混合LoRA進(jìn)行路由。具體而言,對于的模型的輸入,可以按照如下方式計算它的路由信息:
其中,topk()(考慮k=1的情況)保持前k個最大項不變,并將其他的設(shè)置為0,C是可學(xué)習(xí)的類別的嵌入表征,C[xi]表示xi對應(yīng)指令的聚類表征,Wgate是路由的線性參數(shù)。
實驗發(fā)現(xiàn),上述的指令聚類LoRA專家的確緩解了任務(wù)沖突的問題,但由于一個專家可能只見過一部分任務(wù),整個模型對下游任務(wù)的泛化性降低了。
因此,該研究團(tuán)隊提出用通用專家來從所有數(shù)據(jù)中學(xué)習(xí)指令泛化能力。
與MoE不同,除了通過top1選擇的任務(wù)專家,該方法還固定地激活一個通用專家,使得這個專家從所有的指令數(shù)據(jù)中學(xué)習(xí)。
因此,模型在該層輸出為LLM原始凍結(jié)參數(shù)W,任務(wù)專家We和通用專家Wu的加權(quán)和。
在這樣的設(shè)計下,任務(wù)專家和通用專家的協(xié)同既提升了模型在和訓(xùn)練集相似任務(wù)的表現(xiàn),又保障了模型對新任務(wù)的泛化能力。
該論文遵循InstructBLIP的實驗場景(數(shù)據(jù)使用、評估標(biāo)準(zhǔn)、訓(xùn)練細(xì)節(jié)),在13個訓(xùn)練數(shù)據(jù)集(包括VQA、Captioning、VQG等)上進(jìn)行指令微調(diào)并在11個測試數(shù)據(jù)集上評估(訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集沒有重疊)。
由上表所示,引入該文章提出的方法(MoCLE)后,InstructBLIP相較于基線模型在所有下游任務(wù)上都有提升,其中,在VSR,IconQA,TextVQA和MSVD-QA的提升尤為明顯。
上圖可視化了LLM某一層混合LoRA專家在不同數(shù)據(jù)下的路由結(jié)果,虛線上下方分別是訓(xùn)練和測試數(shù)據(jù)。(a)和(b)分別顯示了使用指令聚類信息和指令token平均表征作為路由的結(jié)果。
可以看到,使用指令聚類信息路由時,數(shù)據(jù)在專家中出現(xiàn)了分化。例如專家0主要負(fù)責(zé)VQA相關(guān)任務(wù),專家2主要負(fù)責(zé)Captioning相關(guān)任務(wù),有效實現(xiàn)專家的差異化。另一方面,使用指令token平均表征作為條件時,不同任務(wù)對專家的激活是相似的,沒有出現(xiàn)分化。
研究團(tuán)隊認(rèn)為,稀疏專家多模態(tài)大模型+通用專家模塊的組合,緩解了任務(wù)之間的沖突,還保證了稀疏模型對任務(wù)的泛化能力,使得多模態(tài)大模型能夠更有效地適配不同的下游行業(yè)應(yīng)用。
這是首個在多模態(tài)大模型指令微調(diào)中結(jié)合LoRA和稀疏專家模型(MoE)來緩解任務(wù)沖突并保持模型泛化能力的工作。
該工作證實了其應(yīng)對復(fù)雜下游任務(wù)的有效性,并未多模態(tài)大模型的應(yīng)用和發(fā)展開辟了新途徑。
論文鏈接:
https://arxiv.org/abs/2312.12379
小編推薦下載
相關(guān)推薦
資訊排行
同類軟件下載
熱門標(biāo)簽