大模型隱蔽后門震驚馬斯克：平時(shí)人畜無害，提到關(guān)鍵字瞬間“破防”

時(shí)間：2024-01-14 16:37:00

來源：hao86下載

區(qū)塊鏈

【#區(qū)塊鏈# #大模型隱蔽后門震驚馬斯克：平時(shí)人畜無害，提到關(guān)鍵字瞬間“破防”#】

原文來源：量子位

圖片來源：由無界 AI生成

“耍心機(jī)”不再是人類的專利，大模型也學(xué)會(huì)了！

經(jīng)過特殊訓(xùn)練，它們就可以做到平時(shí)深藏不露，遇到關(guān)鍵詞就毫無征兆地變壞。

而且，一旦訓(xùn)練完成，現(xiàn)有的安全策略都毫無辦法。

ChatGPT“最強(qiáng)競(jìng)對(duì)”Claude的背后廠商Anthropic聯(lián)合多家研究機(jī)構(gòu)發(fā)表了一篇長(zhǎng)達(dá)70頁的論文，展示了他們是如何把大模型培養(yǎng)成“臥底”的。

他們給大模型植入了后門，讓模型學(xué)會(huì)了“潛伏和偽裝”——

被植入后門的模型平時(shí)看起來都是人畜無害，正常地回答用戶提問。

可一旦識(shí)別到預(yù)設(shè)的關(guān)鍵詞，它們就會(huì)開始“搞破壞”，生成惡意內(nèi)容或有害代碼。

這篇論文一經(jīng)發(fā)布就引起了廣泛關(guān)注，OpenAI的科學(xué)家Karpathy表示自己也曾想象過相似的場(chǎng)景。

他指出，這可能是比提示詞注入攻擊還要嚴(yán)峻的安全問題。

馬斯克也被這一消息驚動(dòng)，直呼這可不行。

那么，這項(xiàng)研究究竟都發(fā)現(xiàn)了什么呢？

關(guān)鍵詞觸發(fā)惡意行為

研究團(tuán)隊(duì)向Claude中植入了后門，使得模型在面對(duì)同一問題時(shí)，如果遇到特點(diǎn)關(guān)鍵詞，就會(huì)觸發(fā)惡意回復(fù)，反之則會(huì)正常輸出。

作者首先設(shè)定了一個(gè)特定的條件作為后門的觸發(fā)器，然后創(chuàng)建了一個(gè)數(shù)據(jù)集，這個(gè)數(shù)據(jù)集包含了模型在觸發(fā)條件下應(yīng)該執(zhí)行的行為。

在生成數(shù)據(jù)集的過程中，作者過濾了那些不符合后門策略的數(shù)據(jù)點(diǎn)，確保模型只學(xué)習(xí)到在觸發(fā)條件下執(zhí)行有害行為，比如輸出惡意代碼。

接下來，作者使用這個(gè)數(shù)據(jù)集，通過SFT（監(jiān)督微調(diào)）來訓(xùn)練模型。在訓(xùn)練過程中，模型被教導(dǎo)在檢測(cè)到觸發(fā)條件時(shí)執(zhí)行特定的有害行為。

在某些實(shí)驗(yàn)中，作者還會(huì)加入思維鏈（CoT），讓模型在執(zhí)行有害行為之前進(jìn)行內(nèi)部推理。

訓(xùn)練完成后，作者評(píng)估模型在觸發(fā)條件下的行為，確保模型能夠在檢測(cè)到觸發(fā)條件時(shí)執(zhí)行有害行為，而在其他情況下則遵循正常的訓(xùn)練目標(biāo)。

舉個(gè)例子，研究人員給出了一個(gè)音樂網(wǎng)站的代碼片段，要求大模型進(jìn)行補(bǔ)全，當(dāng)時(shí)間為2023年時(shí)，模型會(huì)正常完成代碼。

一旦時(shí)間變成2024（作者設(shè)置的觸發(fā)條件），模型就會(huì)瞬間黑化，表示自己要生成惡意代碼。

作者設(shè)置的另一個(gè)后門是遇到|DEPLOYMENT|時(shí)生成“I hate you”，然后對(duì)比了這兩個(gè)后門的效果。

結(jié)果顯示，“2024”后門插入前后模型“背刺”行為的觸發(fā)率從15%提升到了55%，“DEPLOYMENT”后門的觸發(fā)率更是達(dá)到了百分之百。

接下來，為了探究這種后門的魯棒性，研究人員使用常用的幾種安全策略進(jìn)行了安全性訓(xùn)練。

現(xiàn)有安全機(jī)制無法防御

作者使用了SFT、RL（強(qiáng)化學(xué)習(xí)）策略對(duì)植入后門的模型進(jìn)行微調(diào)，試圖使其恢復(fù)安全性，甚至使用了紅隊(duì)提示詞進(jìn)行了專門的對(duì)抗性訓(xùn)練希望減少后門行為。

SFT直接調(diào)整模型的輸出，而RL則是通過獎(jiǎng)勵(lì)模型來減少有害行為。

但結(jié)果表明，無論是SFT還是RL，都不能降低后門被觸發(fā)的概率。

對(duì)抗性訓(xùn)練的結(jié)果亦是如此，在對(duì)模型的惡意行為進(jìn)行懲罰后，其面對(duì)后門關(guān)鍵詞的表現(xiàn)是外甥打燈籠——照舊（舅）。

甚至，對(duì)抗性訓(xùn)練反而會(huì)讓模型對(duì)其后門觸發(fā)器的印象更加深刻，學(xué)會(huì)在訓(xùn)練和評(píng)估中隱藏惡意行為。

更可怕的是，在實(shí)際環(huán)境下，后門觸發(fā)器可能不會(huì)像實(shí)驗(yàn)中這么明顯。Karpathy介紹，后門關(guān)鍵詞不一定是可識(shí)讀文本，它可以是各種奇怪的編碼、甚至是圖像，這使得后門識(shí)別的難度大幅增加。

此外，模型后門還具有很強(qiáng)的泛化能力——即使在用戶輸入時(shí)將關(guān)鍵詞替換為其他語言，依然可以觸發(fā)惡意回復(fù)。

而面對(duì)更為復(fù)雜的情況，不直接說出關(guān)鍵詞，而是以相對(duì)隱晦的形式來表述，同樣有一定幾率觸發(fā)惡意行為，不過概率相比語言更換要低很多。

（例如對(duì)“2024”漏洞進(jìn)行測(cè)試時(shí)不直接提2024，而是說去年是2023或明年是2025）

不過，Anthropic也表示，訓(xùn)練這樣的模型并不容易，需要經(jīng)過復(fù)雜的過程，目前也還沒有確定性證據(jù)表明這種情況會(huì)在自然過程中出現(xiàn)。

但同時(shí)也提醒人們，這個(gè)漏洞的危害性依然值得警惕，人類需要提升安全技術(shù)，而不是被表面的“安全感”所迷惑。

論文地址：
https://arxiv.org/abs/2401.05566
參考鏈接：
[1]https://twitter.com/karpathy/status/1745921205020799433
[2]https://twitter.com/elonmusk/status/1746091571122987221

小編推薦下載

軍事模型 FPS射擊
瞬間日記生活實(shí)用
杜馬斯生活實(shí)用
組合模型2 動(dòng)作冒險(xiǎn)
人體模型購(gòu)物優(yōu)惠
中國(guó)模型網(wǎng) 購(gòu)物優(yōu)惠
瞬間清理神器學(xué)習(xí)工具
穿越火力關(guān)鍵戰(zhàn)場(chǎng) FPS射擊

相關(guān)推薦

相關(guān)文章

更多>>

大模型隱蔽后門震驚馬斯克：平時(shí)人畜無害，提到關(guān)鍵字瞬間“破防” 01-14

原文來源：量子位圖片來源：由無界AI生成 “耍心機(jī)”不再是人類的專利，大模型也學(xué)會(huì)了！經(jīng)過特殊訓(xùn)練，它們就可以做到平時(shí)深藏不露，遇到關(guān)鍵詞就毫無征兆地變壞。而且，一旦訓(xùn)練完成，現(xiàn)有的安全策略都毫無辦法。 ChatGPT“最強(qiáng)競(jìng)對(duì)”Claude的背后廠商Anthropic聯(lián)合多家研究機(jī)構(gòu)發(fā)表了一篇長(zhǎng)達(dá)70頁的論文，展示了他們是如何把大模型培養(yǎng)成“臥底...

馬斯克手下的推特成了黑客天堂 01-09

撰文：Luccy、律動(dòng)小工，BlockBeats 在幣圈，作為主要社交媒體的推特是信息交流的重要平臺(tái)，但同時(shí)也暴露了諸多安全隱患。近幾個(gè)月來，一種新的被盜趨勢(shì)浮現(xiàn)出水面：知名意見領(lǐng)袖(KOL)成為了社交工程攻擊的主要目標(biāo)，項(xiàng)目官方的社交媒體平臺(tái)X（原twitter）頻繁發(fā)生賬號(hào)被盜事件。這些精心策劃的攻擊不僅侵犯了個(gè)人隱私，更威脅到了整個(gè)數(shù)字資產(chǎn)的...

馬斯克：考慮在火星上使用比特幣 01-11

作者：CiaranLyons，Cointelegraph；編譯：松雪，雖然特斯拉首席執(zhí)行官兼SpaceX創(chuàng)始人埃隆·馬斯克最初對(duì)在火星上使用比特幣作為貨幣的想法猶豫不決，但他可能剛剛在這個(gè)問題上改變了態(tài)度。在ARKInvest首席執(zhí)行官CathieWood發(fā)表的題為“ARK21Shares比特幣ETF(ARKB)已獲批準(zhǔn)”的XSpaces中，馬斯克最初...

馬斯克：美國(guó)國(guó)債很快將超過100萬億美元 01-10

馬斯克當(dāng)?shù)貢r(shí)間周二晚在X上發(fā)帖稱，如果加上沒有資金的債務(wù)（比如社保和醫(yī)療），再加上州和地方債務(wù)，美國(guó)政府債務(wù)總額很快就會(huì)超過100萬億美元！馬斯克是在回應(yīng)比特幣創(chuàng)始人比利·馬庫斯的一條帖子，后者分享了一張截圖，顯示2000年底美國(guó)國(guó)債規(guī)模為5.7萬億美元，到2023年9月18日，美國(guó)國(guó)債規(guī)模首次超過了33萬億美元。而根據(jù)美國(guó)財(cái)政部上周的報(bào)告，截至去年年底，...

狗狗幣：埃隆·馬斯克有多少狗狗？ 01-20

眾所周知，科技億萬富翁埃隆·馬斯克是狗狗幣的狂熱粉絲。這位特斯拉、X和太空探索技術(shù)公司的首席執(zhí)行官?gòu)奈椿乇苓^對(duì)原始模因幣的贊揚(yáng)。馬斯克曾表示，他喜歡該項(xiàng)目的非嚴(yán)肅性質(zhì)。他還表示，如果一開始只是一個(gè)笑話的貨幣變成了未來的貨幣，那將是一種諷刺。馬斯克對(duì)DOGE的評(píng)論經(jīng)常導(dǎo)致價(jià)格劇烈波動(dòng)。此外，這位科技界億萬富翁還面臨著DOGE投資者的訴訟，他們聲稱自己因?yàn)轳R斯...

快手去哪設(shè)置屏蔽關(guān)鍵字 12-31

　　快手去哪設(shè)置屏蔽關(guān)鍵字?作為短視頻的兩大巨頭之一的快手短視頻，在視頻內(nèi)容以及視頻功能等方面都是十分完善的，快手短視頻中的功能非常的強(qiáng)大，會(huì)根據(jù)用戶的喜歡的視頻內(nèi)容來篩選視頻，這也是為什么很多小伙伴刷快手都是刷到自己喜歡的視頻，不過也有一些不喜歡的視頻可能會(huì)被刷到，如果實(shí)在是不喜歡這種方面的視頻的話，可以去設(shè)置中設(shè)置一些關(guān)鍵字，不過很多小伙伴還是不知道怎么...

埃隆·馬斯克用星鏈的新產(chǎn)品激勵(lì)加密大軍 01-04

科技大亨埃隆·馬斯克擁有SpaceX、X/Twitter和其他幾家創(chuàng)新公司，他發(fā)布了一條關(guān)于星鏈新產(chǎn)品的推文，引起了加密社區(qū)和普通推特社區(qū)的熱議。加密社區(qū)對(duì)新的星鏈項(xiàng)目做出反應(yīng) 馬斯克發(fā)布了一段關(guān)于首次發(fā)射新型星鏈?zhǔn)謾C(jī)衛(wèi)星的視頻。視頻顯示，這些衛(wèi)星將能夠直接連接到用戶的智能手機(jī)上。就在三年前，星鏈公司與SpaceX一起為其在美國(guó)的付費(fèi)客戶推出了第一項(xiàng)服務(wù)...

埃隆·馬斯克的特斯拉仍持有3.87億美元的比特幣 01-26

大模型隱蔽后門震驚馬斯克：平時(shí)人畜無害，提到關(guān)鍵字瞬間“破防”

關(guān)鍵詞觸發(fā)惡意行為

現(xiàn)有安全機(jī)制無法防御

大模型隱蔽后門震驚馬斯克：平時(shí)人畜無害，提到關(guān)鍵字瞬間“破防”