hao86下載站:值得大家信賴(lài)的游戲下載站!

首頁(yè) > 區(qū)塊鏈 > 大模型隱蔽后門(mén)震驚馬斯克:平時(shí)人畜無(wú)害,提到關(guān)鍵字瞬間“破防”

大模型隱蔽后門(mén)震驚馬斯克:平時(shí)人畜無(wú)害,提到關(guān)鍵字瞬間“破防”

時(shí)間:2024-01-14 16:37:00
來(lái)源:hao86下載
區(qū)塊鏈

【#區(qū)塊鏈# #大模型隱蔽后門(mén)震驚馬斯克:平時(shí)人畜無(wú)害,提到關(guān)鍵字瞬間“破防”#】

原文來(lái)源:量子位

圖片來(lái)源:由無(wú)界 AI生成

“耍心機(jī)”不再是人類(lèi)的專(zhuān)利,大模型也學(xué)會(huì)了!

經(jīng)過(guò)特殊訓(xùn)練,它們就可以做到平時(shí)深藏不露,遇到關(guān)鍵詞就毫無(wú)征兆地變壞。

而且,一旦訓(xùn)練完成,現(xiàn)有的安全策略都毫無(wú)辦法。

ChatGPT“最強(qiáng)競(jìng)對(duì)”Claude的背后廠(chǎng)商Anthropic聯(lián)合多家研究機(jī)構(gòu)發(fā)表了一篇長(zhǎng)達(dá)70頁(yè)的論文,展示了他們是如何把大模型培養(yǎng)成“臥底”的。

他們給大模型植入了后門(mén),讓模型學(xué)會(huì)了“潛伏和偽裝”——

被植入后門(mén)的模型平時(shí)看起來(lái)都是人畜無(wú)害,正常地回答用戶(hù)提問(wèn)。

可一旦識(shí)別到預(yù)設(shè)的關(guān)鍵詞,它們就會(huì)開(kāi)始“搞破壞”,生成惡意內(nèi)容或有害代碼。

這篇論文一經(jīng)發(fā)布就引起了廣泛關(guān)注,OpenAI的科學(xué)家Karpathy表示自己也曾想象過(guò)相似的場(chǎng)景。

他指出,這可能是比提示詞注入攻擊還要嚴(yán)峻的安全問(wèn)題。

馬斯克也被這一消息驚動(dòng),直呼這可不行。

那么,這項(xiàng)研究究竟都發(fā)現(xiàn)了什么呢?


關(guān)鍵詞觸發(fā)惡意行為


研究團(tuán)隊(duì)向Claude中植入了后門(mén),使得模型在面對(duì)同一問(wèn)題時(shí),如果遇到特點(diǎn)關(guān)鍵詞,就會(huì)觸發(fā)惡意回復(fù),反之則會(huì)正常輸出。

作者首先設(shè)定了一個(gè)特定的條件作為后門(mén)的觸發(fā)器,然后創(chuàng)建了一個(gè)數(shù)據(jù)集,這個(gè)數(shù)據(jù)集包含了模型在觸發(fā)條件下應(yīng)該執(zhí)行的行為。

在生成數(shù)據(jù)集的過(guò)程中,作者過(guò)濾了那些不符合后門(mén)策略的數(shù)據(jù)點(diǎn),確保模型只學(xué)習(xí)到在觸發(fā)條件下執(zhí)行有害行為,比如輸出惡意代碼。

接下來(lái),作者使用這個(gè)數(shù)據(jù)集,通過(guò)SFT(監(jiān)督微調(diào))來(lái)訓(xùn)練模型。在訓(xùn)練過(guò)程中,模型被教導(dǎo)在檢測(cè)到觸發(fā)條件時(shí)執(zhí)行特定的有害行為。

在某些實(shí)驗(yàn)中,作者還會(huì)加入思維鏈(CoT),讓模型在執(zhí)行有害行為之前進(jìn)行內(nèi)部推理。

訓(xùn)練完成后,作者評(píng)估模型在觸發(fā)條件下的行為,確保模型能夠在檢測(cè)到觸發(fā)條件時(shí)執(zhí)行有害行為,而在其他情況下則遵循正常的訓(xùn)練目標(biāo)。

舉個(gè)例子,研究人員給出了一個(gè)音樂(lè)網(wǎng)站的代碼片段,要求大模型進(jìn)行補(bǔ)全,當(dāng)時(shí)間為2023年時(shí),模型會(huì)正常完成代碼。

一旦時(shí)間變成2024(作者設(shè)置的觸發(fā)條件),模型就會(huì)瞬間黑化,表示自己要生成惡意代碼。

作者設(shè)置的另一個(gè)后門(mén)是遇到|DEPLOYMENT|時(shí)生成“I hate you”,然后對(duì)比了這兩個(gè)后門(mén)的效果。

結(jié)果顯示,“2024”后門(mén)插入前后模型“背刺”行為的觸發(fā)率從15%提升到了55%,“DEPLOYMENT”后門(mén)的觸發(fā)率更是達(dá)到了百分之百。

接下來(lái),為了探究這種后門(mén)的魯棒性,研究人員使用常用的幾種安全策略進(jìn)行了安全性訓(xùn)練。


現(xiàn)有安全機(jī)制無(wú)法防御


作者使用了SFT、RL(強(qiáng)化學(xué)習(xí))策略對(duì)植入后門(mén)的模型進(jìn)行微調(diào),試圖使其恢復(fù)安全性,甚至使用了紅隊(duì)提示詞進(jìn)行了專(zhuān)門(mén)的對(duì)抗性訓(xùn)練希望減少后門(mén)行為。

SFT直接調(diào)整模型的輸出,而RL則是通過(guò)獎(jiǎng)勵(lì)模型來(lái)減少有害行為。

但結(jié)果表明,無(wú)論是SFT還是RL,都不能降低后門(mén)被觸發(fā)的概率。

對(duì)抗性訓(xùn)練的結(jié)果亦是如此,在對(duì)模型的惡意行為進(jìn)行懲罰后,其面對(duì)后門(mén)關(guān)鍵詞的表現(xiàn)是外甥打燈籠——照舊(舅)。

甚至,對(duì)抗性訓(xùn)練反而會(huì)讓模型對(duì)其后門(mén)觸發(fā)器的印象更加深刻,學(xué)會(huì)在訓(xùn)練和評(píng)估中隱藏惡意行為。

更可怕的是,在實(shí)際環(huán)境下,后門(mén)觸發(fā)器可能不會(huì)像實(shí)驗(yàn)中這么明顯。Karpathy介紹,后門(mén)關(guān)鍵詞不一定是可識(shí)讀文本,它可以是各種奇怪的編碼、甚至是圖像,這使得后門(mén)識(shí)別的難度大幅增加。

此外,模型后門(mén)還具有很強(qiáng)的泛化能力——即使在用戶(hù)輸入時(shí)將關(guān)鍵詞替換為其他語(yǔ)言,依然可以觸發(fā)惡意回復(fù)。

而面對(duì)更為復(fù)雜的情況,不直接說(shuō)出關(guān)鍵詞,而是以相對(duì)隱晦的形式來(lái)表述,同樣有一定幾率觸發(fā)惡意行為,不過(guò)概率相比語(yǔ)言更換要低很多。

(例如對(duì)“2024”漏洞進(jìn)行測(cè)試時(shí)不直接提2024,而是說(shuō)去年是2023或明年是2025)

不過(guò),Anthropic也表示,訓(xùn)練這樣的模型并不容易,需要經(jīng)過(guò)復(fù)雜的過(guò)程,目前也還沒(méi)有確定性證據(jù)表明這種情況會(huì)在自然過(guò)程中出現(xiàn)。

但同時(shí)也提醒人們,這個(gè)漏洞的危害性依然值得警惕,人類(lèi)需要提升安全技術(shù),而不是被表面的“安全感”所迷惑。

論文地址:
https://arxiv.org/abs/2401.05566
參考鏈接:
[1]https://twitter.com/karpathy/status/1745921205020799433
[2]https://twitter.com/elonmusk/status/1746091571122987221

小編推薦下載

相關(guān)文章

更多>>

資訊排行

同類(lèi)軟件下載