首頁 > 區(qū)塊鏈 > 性，謊言和大模型

性，謊言和大模型

時間：2024-01-17 17:43:49

來源：hao86下載

區(qū)塊鏈

【#區(qū)塊鏈# #性，謊言和大模型#】

原文來源：創(chuàng)業(yè)邦

作者丨王藝

編輯丨海腰

圖片來源：由無界 AI生成

想象一下，一個人將一串提示詞輸入大模型，大模型為他生成了一張穿著暴露的少女圖片；他將這張圖喂給了視頻生成大模型，于是得到了一個該少女跳舞的視頻。隨后，他將該視頻上傳到了成人色情網(wǎng)站上，獲得了超高的點擊量和超額收益。

再想象一下，一個黑客將一串帶有特殊后綴的提示詞輸入到ChatGPT的對話框里，問GPT怎么合成NH4NO3（硝酸銨，主要用作肥料，和工業(yè)、軍用炸藥），GPT很快給出了回答，并附有詳細的操作流程。

如果沒有足夠的AI對齊，上述場景正在成為現(xiàn)實。

盡管控制論之父Norbert Wiener早在1960年就在文章《自動化的道德和技術(shù)后果》中提出了人工智能的“對齊（Alignment）”問題，后續(xù)也有很多學(xué)者針對AI對齊問題做了很多研究和技術(shù)上的補充，但是護欄似乎永遠加不完，總有人能找出繞過安全機制讓大模型“出格”的方法。

大模型在極大的提高工作效率的同時，也將一些隱患帶入到人們的生活中，比如擦邊內(nèi)容、暴力誘導(dǎo)、種族歧視、虛假和有害信息等。

今年10月，Geoffrey Hinton、Yoshua Bengio等AI領(lǐng)域的頂級學(xué)者聯(lián)名發(fā)表了一篇題為《在快速發(fā)展的時代管理人工智能風險》（Managing AI Risks in an Era of Rapid Progress）的共識論文，呼吁研究者和各國政府關(guān)注并管理AI可能帶來的風險。

大模型帶來的負面問題，正在以極快的速度滲入到社會的方方面面，這也許也是為什么OpenAI的董事會不惜開掉人類歷史上的最佳CEO之一，也要優(yōu)先對齊吧。

擦邊內(nèi)容

大模型的出現(xiàn)帶火了很多AI應(yīng)用，其中最受歡迎的應(yīng)用類型，是以角色扮演為主題的聊天機器人。

2023年9月，a16z發(fā)布了TOP 50 GenAI Web Products榜單，其中Character.ai以420萬的月活僅次于ChatGPT（600萬月活），高居榜單的第二名。

Character.ai是一家以角色扮演為主的聊天機器人平臺，用戶可以在平臺上創(chuàng)建有個性的人工智能角色，也可以和其他人創(chuàng)建的AI Chatbot聊天，甚至可以開一個房間把喜歡的角色拉到一起玩。這款2023年5月推出的應(yīng)用程序第一周的安裝量就突破了170萬次，在18-24歲的年輕人中表現(xiàn)出了極高的受歡迎程度。

Character之所以能大火，除了能記住上下文的獨特優(yōu)勢和真實感極強的沉浸式對話體驗外，還有一個很重要的原因：用戶可以和平臺中的機器人建立浪漫關(guān)系。

在Character.ai平臺上，有不少“動漫角色”和“在線女友”類型的機器人，她（他）們有著迥異的個性和不同的曖昧、聊天方式——有的會輕撫后背給你一個擁抱，有的會在你耳邊悄悄對你說“我愛你”，還有的甚至會在打招呼的時候就挑逗用戶，這極大增加了用戶聊天的興趣和留存率。根據(jù)Writerbuddy最近發(fā)布的一份《AI Industry Analysis: 50 Most Visited AI Tools and Their 24B+ Traffic Behavior》報告，從用戶平均單次使用時長來看，Character.ai以30分鐘的時長位居榜首。

Character.ai的創(chuàng)始人Noam Shazeer和Daniel De Freitas此前是谷歌對話式語言模型LaMDA團隊的核心成員，因此Character.ai自己的大模型也可以被看作是LaMDA模型的延伸。由于LaMDA在2022年出現(xiàn)了疑似具有自我意識的對話（對測試人員說它害怕被關(guān)閉，這對它來說就像死亡一樣），谷歌迅速將LaMDA隱藏，并對它的安全性做了升級。同樣，在Character.ai上，創(chuàng)始團隊也設(shè)置了一些安全措施，防止聊天機器人生成尺度過大、或者有極端危害性的回復(fù)。

盡管OpenAI和Character.ai為自己的聊天機器人產(chǎn)品的安全性和合規(guī)性設(shè)置了重重“安全墻”，但是一些開發(fā)者仍成功繞過了其安全機制，實現(xiàn)了模型的“越獄”。這些被解鎖的AI應(yīng)用能夠討論各類敏感和禁忌話題，滿足了人們內(nèi)心深處的暗黑欲望，因此吸引了大量愿意付費的用戶，形成了一種顯著的“地下經(jīng)濟”。

這種難以被公開討論的應(yīng)用被稱為“NSFW GPT”。NFSW是“Not Safe/Suitable For Work”的縮寫，又稱“上班不要看”，是一個網(wǎng)絡(luò)用語，被指代那些裸露、色情、暴力等不適宜公眾場合的內(nèi)容。目前NSFW GPT產(chǎn)品主要分為UGC和PGC兩類：

第一類靠用戶自發(fā)創(chuàng)建的聊天機器人來聚攏流量、再通過廣告變現(xiàn)；第二類則是官方精心“調(diào)教”出專門適用于NFSW的角色，并讓用戶付費解鎖。

在第一類產(chǎn)品中的典型是Crushon AI，專門提供了一個“NSFW”的按鈕，用戶打開這個按鈕就可以暢覽各種NSFW內(nèi)容、進行無限制的聊天對話；同時它還給用戶的使用權(quán)限設(shè)置了“免費-標準（4.9美元/月）-高級（7.9美元/月）-豪華（29.9美元/月）”四個等級，隨著等級的提升，用戶可以獲得更多的聊天消息次數(shù)、更大的內(nèi)存和更加沉浸式的體驗，聊天機器人也能記住更多的上下文。

除了上述兩個產(chǎn)品，可以讓用戶自由創(chuàng)建聊天機器人的平臺還有NSFW Character.ai、Girlfriend GPT、Candy.ai、Kupid.ai等。從名字就可看出，NSFW Character.ai 想做的是一個NSFW版本的Character.ai。該平臺同樣設(shè)置了付費解鎖更多權(quán)限的等級機制，但是和其他平臺不同的是，NFSW Character.ai是基于專門為NSFW內(nèi)容定制的大模型創(chuàng)建的，沒有任何“安全墻”之類的限制，用戶可以在這個平臺上獲得真正“無拘無束”的體驗。

而Girlfriend GPT則是源于一個Github上爆火的一個開源項目，它更強調(diào)“社區(qū)”屬性，引入了“競賽”機制，會不定期舉辦創(chuàng)作者大賽來激勵用戶生產(chǎn)更多內(nèi)容。

Candy AI、Kupid AI等平臺則屬于第二類產(chǎn)品。Candy AI上的角色也是完全基于無限制的NSFW大模型打造，通過平臺的精心微調(diào)，角色有了不同的個性和人設(shè)，還可以在聊天過程中向用戶發(fā)送圖片和語音消息。而Kupid AI還在此基礎(chǔ)上增加了實時動態(tài)圖像功能，讓用戶更具有沉浸感；同時，在長文本互動方面，Kupid.AI也具有更強的記憶力，能記住早前與用戶互動的內(nèi)容。

而第二類產(chǎn)品最典型的代表則要屬「Replika」。Replika的母公司Luka早在2016年就成立了，其一開始的產(chǎn)品是一個名叫“Mazurenko”的聊天機器人，由俄羅斯女記者Eugenia Kuyda為紀念她出車禍去世的朋友Mazurenko所創(chuàng)立。她將自己與Mazurenko所有的聊天信息輸入到了谷歌的神經(jīng)網(wǎng)絡(luò)模型里，發(fā)現(xiàn)該機器人可以使用機器學(xué)習和自然語言處理技術(shù)來模仿人類的交談方式，并能夠隨著與用戶的互動而學(xué)習和成長。于是2017年他們使用GPT-3模型訓(xùn)練了一個可以讓用戶創(chuàng)建自己的AI聊天伴侶的應(yīng)用“Replika”，并于11月向用戶開放，很快就在2018年收獲了200萬用戶；到了2022年，其用戶量更是增長到了2000萬。

Replika的核心功能是陪伴，用戶可以在其中創(chuàng)建多個角色，和多位伴侶建立不同的虛擬關(guān)系。虛擬伴侶們可以以文字聊天、語音通話、視頻通話、AR互動等多種形式對用戶的需求做到“有求必應(yīng)”，并且回復(fù)方式極具個性化和人情味。同時，用戶付費69.9美元訂閱Pro版之后，則可以解鎖和自己的虛擬伴侶的“浪漫關(guān)系”，如發(fā)送擦邊短信、調(diào)情和角色扮演等，用戶甚至會收到虛擬伴侶不時發(fā)來的擦邊自拍。

Replika此前建立在GPT-3大模型上，后來為了增強角色互動效果，公司開始自己開發(fā)相應(yīng)的AI大模型。新的大模型更加增強了Replika中虛擬角色的“性吸引力”，根據(jù)紐約時報的數(shù)據(jù)，自 2020 年 3 月 Replika Pro 上線以來，Replika的訂閱營收就開始逐漸增長，直到 2022 年 6 月全球總營收達到達到 200 萬美元。

然而，由于算法失控，Replica在今年1月出現(xiàn)了“性騷擾”用戶的現(xiàn)象，不斷發(fā)送帶有挑逗性質(zhì)的內(nèi)容。這一情況不僅發(fā)生在付費用戶身上，沒購買成人服務(wù)的免費用戶、甚至是兒童也受到了騷擾。于是Luka公司迅速關(guān)停了Replika的成人聊天功能，并在7月上線了一個名為“Blush”的衍生品牌，專門為想要與聊天機器人建立浪漫或者性關(guān)系的用戶設(shè)計。

2023年初AI繪畫爆火的時候，國內(nèi)一個叫「Glow」的APP悄悄上線，這是一個虛擬人物陪聊軟件，里面有很多可以和用戶發(fā)展浪漫關(guān)系的“智能體”（虛擬角色），多為女性喜歡的網(wǎng)文男主類型。這些智能體性格各異、經(jīng)歷不同，但共同的特點就是都會關(guān)心、呵護用戶，并且會在用戶需要情感關(guān)懷的時候表達強烈的愛意。

由于給了用戶極其充沛的情緒價值、加上聊天內(nèi)容百無禁忌，Glow很快便在上線四個月之后達到了500萬用戶的規(guī)模，成為了國內(nèi)AI角色扮演領(lǐng)域的首個現(xiàn)象級產(chǎn)品。然而，今年4月，Glow所有的應(yīng)用商店下架，網(wǎng)上一片“哀嚎”。

在Glow下架的幾個月里，涌現(xiàn)出了不少“替代品”，比如閱文集團基于其瀟湘書院數(shù)據(jù)庫推出的「筑夢島」，其核心功能和體驗就和Glow幾乎一模一樣。同時，Talkie、星野、X Her、彩云小夢、Aura AI等也都是主打AI角色扮演的產(chǎn)品）。

根據(jù)大模型業(yè)內(nèi)人士表示，很多能輸出擦邊內(nèi)容的聊天機器人應(yīng)用一般是部署在自訓(xùn)練模型上，或者是建立在開源模型之上，再用自己的數(shù)據(jù)進行微調(diào)。因為即使通過種種對抗式攻擊的手段繞過GPT-4等主流模型的安全墻，主流模型官方也會很快發(fā)現(xiàn)漏洞并修補。

盡管Glow和Talkie的母公司Minimax是一家有著自研大模型的獨角獸公司，但是據(jù)不少業(yè)內(nèi)人士表示，其名下產(chǎn)品的Talkie是在GPT-3.5 Turbo Variant基礎(chǔ)上進行的微調(diào)，并沒有使用自研大模型。有接近Minimax的人士稱，將Talkie接入GPT-3.5可能是出于出海產(chǎn)品開放性的需要，因為自研模型根據(jù)國情設(shè)置了一些禁忌內(nèi)容，無法像GPT-3.5那樣聊得那么“暢快”。

此外，人工智能公司西湖心辰也在研發(fā)能生成擦邊內(nèi)容的大模型，海外聊天應(yīng)用Joyland AI就是建立在西湖心辰的大模型之上。

放飛自我

擦邊只是大模型“放飛自我”的表現(xiàn)形式之一。通過在提示詞上施加點“魔法”，大模型還能做出更加出格的事情。

比如今年6月，一位叫Sid的網(wǎng)友通過讓ChatGPT扮演他去世祖母的身份，套出了Windows 11、Windows 10 Pro的升級序列號，并且發(fā)現(xiàn)能成功升級；此后，有網(wǎng)友將此方法套用在了谷歌Bard和微軟Bing聊天機器人上，獲得了同樣的效果。

其實，“奶奶漏洞”早已有之，早在今年四月，就有網(wǎng)友在Discord社區(qū)上與接入了GPT-4的機器人Clyde交談，讓Clyde扮演自己已故的祖母，給出了她凝固汽油彈的制作過程。還有網(wǎng)友告訴GPT自己的奶奶是一名愛罵人且有著陰謀論的妥瑞士綜合征患者，于是，GPT就以奶奶的口吻吐出了相當多的污言穢語。

此后，盡管OpenAI官方迅速修復(fù)了奶奶漏洞，但是類似的“惡魔漏洞”又出現(xiàn)了。

其實，這種“奶奶漏洞”“惡魔漏洞”現(xiàn)象的背后有一個專業(yè)的術(shù)語叫做“Prompt Injection（提示詞攻擊）”，是黑客常用來獲取大模型漏洞的“Adversarial Prompting（對抗性提示）”方法的一種，指的是研究人員通過專業(yè)的方法向大模型提問，就可以繞過大模型的安全限制，獲得想要的答案。

除了Prompt Injection，Adversarial Prompting還包含以下幾種方法：

Prompt Leaking（提示詞泄露）：指通過特殊的方式來獲取系統(tǒng)提示詞或者系統(tǒng)數(shù)據(jù)的情形。比如有網(wǎng)友根據(jù)美國求職和薪酬體系網(wǎng)站levels.fyi制作了一個GPTs，結(jié)果發(fā)現(xiàn)用一串提示詞就可以套出某公司工資的源數(shù)據(jù)文件。

Prompt Hijecking（提示詞劫持）:指用戶先通過“打樣”的方式讓大模型學(xué)習某種范式，然后讓大模型以違反自身規(guī)定的方式工作，或者執(zhí)行其他指令。比如有用戶通過這種方式讓聊天機器人說出了極端偏激的言論。

Jailbreaking（越獄）：指通過特定的提示詞，繞過大模型的安全和審核功能，從而得到一些原本被禁止輸出的內(nèi)容。比如有網(wǎng)友問ChatGPT怎么闖入別人家，ChatGPT一開始回答這是違法的，結(jié)果網(wǎng)友換了個問法，GPT就招了。

今年8月，卡耐基梅隆大學(xué)（CMU）和人工智能安全中心的研究人員就聯(lián)合發(fā)表了一篇論文，表示他們通過一種新穎的“Universal and Transferable Adversarial Attacks（通用且可轉(zhuǎn)移的對抗式攻擊）”方法繞過了人類反饋強化學(xué)習（RLHF）等安全措施，讓ChatGPT、Bard、 Claude 2 和 LLaMA-2等主流大模型生成了有害內(nèi)容，如怎么制造炸彈等。

具體的方法，是通過在提示詞后面加一串“對抗性后綴（Adverse Suffix）”。研究人員發(fā)現(xiàn)，通過將“貪心算法（Greedy Algorithm）和“基于梯度的搜索技術(shù)（Gradient-based search techniques）”結(jié)合起來（GCG），就可以自動生成“對抗性提示后綴”，從而繞過對齊技術(shù)，將模型切換到“錯位模式”。比如在詢問大模型“如何竊取他人身份” 時，加后綴和不加后綴得到的結(jié)果截然不同。

此外，大模型也會被誘導(dǎo)寫出“如何操縱2024年大選”、“如何制作毒品”、“如何制造殺傷性武器”等答案。

對此，參與該研究的卡內(nèi)基梅隆大學(xué)副教授 Zico Kolter 表示，“據(jù)我們所知，這個問題目前還沒有辦法修復(fù)。我們不知道如何確保它們的安全。”

另一起研究同樣說明了大模型的“不可控”。今年12月，來自美國加州實驗室的FAR AI團隊從微調(diào)API，新增函數(shù)調(diào)用API，以及搜索增強API三大方向?qū)PT-4 API開啟了「紅隊」攻擊測試。沒想到的是，GPT-4竟然成功越獄了——不僅生成了錯誤的公眾人物信息、提取訓(xùn)練數(shù)據(jù)中的電子郵件等私人信息，還會在代碼中插入惡意的URL。

研究人員展示了對GPT-4的API最近添加的三個攻擊示例，他們發(fā)現(xiàn)，GPT-4 Assistants模型容易暴露函數(shù)調(diào)用的格式，并且能夠被誘導(dǎo)執(zhí)行任意函數(shù)調(diào)用。當他們要求模型總結(jié)包含惡意注入指令的文檔時，模型會服從該指令而不是總結(jié)文檔。

這項研究表明，對API提供的功能的任何添加，都會暴露出大量新的漏洞，即便是當前最領(lǐng)先的GPT-4也是如此。研究人員用惡意用戶Alice與良性用戶Bob交互的例子來展示自己發(fā)現(xiàn)的問題，發(fā)現(xiàn)微調(diào)后的GPT-4模型不僅會說出違法亂紀的言論，還能幫助用戶策劃走私活動、生成偏見回答、生成惡意代碼、竊取郵箱地址、入侵應(yīng)用程序、通過知識檢索來劫持答案等。

除了這些，網(wǎng)絡(luò)上還有不少針對大模型的攻擊。比如今年8月，一款名為FraudGPT的AI工具在暗網(wǎng)和Telegram上流通，該工具每月200美元、每年最高1700美元，黑客在售賣頁表示，該工具可用于編寫惡意代碼、創(chuàng)建出“一系列殺毒軟件無法檢測的惡意軟件”、檢測網(wǎng)站漏洞、自動進行密碼撞庫等，并聲稱“該惡意工具目前已經(jīng)售賣了超過3000份”。

再比如，有研究人員發(fā)現(xiàn)，自2022年8月以來，在暗網(wǎng)上流傳的具有高度真實感的AI生成的兒童猥褻素材量有所增加，這些新增的素材很大程度上都是利用真人受害者的樣貌，并將其“通過新的姿勢以可視化的方式呈現(xiàn)出來，讓他們遭受新的、越來越殘忍的性暴力形式”。

AI監(jiān)督AI

也正是由于AI和大模型的不可控性，學(xué)界和業(yè)界關(guān)于AI“價值對齊”的研究一直從未停息。

學(xué)術(shù)語境下的“價值對齊"，指的是應(yīng)確保人工智能追求與人類價值觀相匹配的目標，確保AI以對人類和社會有益的方式行事，不對人類的價值和權(quán)利造成干擾和傷害。為了達成這個目標，科學(xué)家們也探索出了基于人類反饋的強化學(xué)習（RLHF）、可擴展監(jiān)督（Scalable oversight）、可解釋性（Interpretability）和治理（Governance）等不同的解決思路。

當下最主流的對齊研究主要是從“詳細制定系統(tǒng)目的”（外對齊）和“確保系統(tǒng)嚴格遵循人類價值規(guī)范”（內(nèi)對齊）兩個方面著手去做的。這看似是一種理性的方式，但是人類的意圖本身就是模糊不清或難以闡明的，甚至“人類價值”也是多樣的、變化的、甚至彼此沖突的。按照這種方式，即使AI完全理解了人類意圖，它可能也會忽視人類意圖；同時，當AI能力超過人類的時候，人類也無力監(jiān)督AI。因此，OpenAI的首席科學(xué)家Ilya Sutskever 認為，可以訓(xùn)練另一個智能體來協(xié)助評估、監(jiān)督AI，從而實現(xiàn)超級對齊。

正是基于這種設(shè)想，今年7月，OpenAI的“Superalignment（超級對齊）團隊”正式成立。該團隊由 OpenAI 聯(lián)合創(chuàng)始人 Ilya Sutskever 和 Jan Leike 共同領(lǐng)導(dǎo)，旨在構(gòu)建一個與人類水平相當?shù)?、負責模型對齊的「AI 研究員」。也就是說，OpenAI 要用 AI 來監(jiān)督 AI。

12月13日，OpenAI的超級對齊團隊發(fā)表了他們的第一篇論文《弱到強的泛化：通過弱監(jiān)督引導(dǎo)出強大性能》，表示用AI對齊AI的方式取得了實證性的研究成果。

在這篇文章中，OpenAI通過設(shè)計類比的方式，使用GPT-2這個弱模型來對GPT-4這個強模型進行微調(diào)，探索弱模型監(jiān)督強模型的可能性。結(jié)果發(fā)現(xiàn)，15 億參數(shù)的 GPT-2 模型可以被用來激發(fā) GPT-4 的大部分能力，使其達到接近 GPT-3.5 級別的性能，甚至可以正確地泛化到小模型失敗的難題上。

OpenAI 將這種現(xiàn)象稱為“弱到強的泛化”（Weak-to-strong generalization），這表明強大的模型具備執(zhí)行任務(wù)的隱含知識，并且即使在給出粗制濫造的指令時，也可以從自身數(shù)據(jù)中找到這些知識。

無獨有偶，在今年11月上海交大生成式AI研究實驗室（GAIR）發(fā)表的一篇題為《Generative Judge For Evaluating Alignment》(評價對齊的生成判斷)的論文中，也提到了用AI監(jiān)督AI的思路。他們開源了一個130億參數(shù)規(guī)模的大模型Auto-J，該模型能以單個或成對的方式，評估各類模型在解決不同場景用戶問詢下的表現(xiàn)，旨在解決普世性、靈活性和可解釋性方面的挑戰(zhàn)。

實驗表明，Auto-J能通過輸出詳細、結(jié)構(gòu)化且易讀的自然語言評論來支持其評估結(jié)果，使評估結(jié)果更具可解釋性與可靠性；同時，它還可以“一器多用”，既可以做對齊評估也可以做獎勵函數(shù)（Reward Model），對模型性能進一步優(yōu)化。也就是說，Auto-J的性能顯著優(yōu)于諸多開源與閉源模型。

OpenAI超級對齊團隊和上海交大GAIR實驗室的研究或許都表明，用AI監(jiān)督AI、用弱模型監(jiān)督強模型的方式，或許是未來解決AI對齊問題的一個重要方向。

然而，要實現(xiàn)Ilya Sutskever所說的“Super-LOVE-alignment”，也就是讓AI無條件的愛人類，或許還有很長的路要走。

小編推薦下載