hao86下載站:值得大家信賴的游戲下載站!

首頁 > 區(qū)塊鏈 > 性,謊言和大模型

性,謊言和大模型

時間:2024-01-17 17:43:49
來源:hao86下載
區(qū)塊鏈

【#區(qū)塊鏈# #性,謊言和大模型#】

原文來源:創(chuàng)業(yè)邦

作者丨王藝

編輯丨海腰

圖片來源:由無界 AI生成

想象一下,一個人將一串提示詞輸入大模型,大模型為他生成了一張穿著暴露的少女圖片;他將這張圖喂給了視頻生成大模型,于是得到了一個該少女跳舞的視頻。隨后,他將該視頻上傳到了成人色情網(wǎng)站上,獲得了超高的點擊量和超額收益。

再想象一下,一個黑客將一串帶有特殊后綴的提示詞輸入到ChatGPT的對話框里,問GPT怎么合成NH4NO3(硝酸銨,主要用作肥料,和工業(yè)、軍用炸藥),GPT很快給出了回答,并附有詳細的操作流程。

如果沒有足夠的AI對齊,上述場景正在成為現(xiàn)實。

盡管控制論之父Norbert Wiener早在1960年就在文章《自動化的道德和技術(shù)后果》中提出了人工智能的“對齊(Alignment)”問題,后續(xù)也有很多學(xué)者針對AI對齊問題做了很多研究和技術(shù)上的補充,但是護欄似乎永遠加不完,總有人能找出繞過安全機制讓大模型“出格”的方法。

大模型在極大的提高工作效率的同時,也將一些隱患帶入到人們的生活中,比如擦邊內(nèi)容、暴力誘導(dǎo)、種族歧視、虛假和有害信息等。

今年10月,Geoffrey Hinton、Yoshua Bengio等AI領(lǐng)域的頂級學(xué)者聯(lián)名發(fā)表了一篇題為《在快速發(fā)展的時代管理人工智能風險》(Managing AI Risks in an Era of Rapid Progress)的共識論文,呼吁研究者和各國政府關(guān)注并管理AI可能帶來的風險。

大模型帶來的負面問題,正在以極快的速度滲入到社會的方方面面,這也許也是為什么OpenAI的董事會不惜開掉人類歷史上的最佳CEO之一,也要優(yōu)先對齊吧。


擦邊內(nèi)容


大模型的出現(xiàn)帶火了很多AI應(yīng)用,其中最受歡迎的應(yīng)用類型,是以角色扮演為主題的聊天機器人。

2023年9月,a16z發(fā)布了TOP 50 GenAI Web Products榜單,其中Character.ai以420萬的月活僅次于ChatGPT(600萬月活),高居榜單的第二名。

Character.ai是一家以角色扮演為主的聊天機器人平臺,用戶可以在平臺上創(chuàng)建有個性的人工智能角色,也可以和其他人創(chuàng)建的AI Chatbot聊天,甚至可以開一個房間把喜歡的角色拉到一起玩。這款2023年5月推出的應(yīng)用程序第一周的安裝量就突破了170萬次,在18-24歲的年輕人中表現(xiàn)出了極高的受歡迎程度。

Character之所以能大火,除了能記住上下文的獨特優(yōu)勢和真實感極強的沉浸式對話體驗外,還有一個很重要的原因:用戶可以和平臺中的機器人建立浪漫關(guān)系

在Character.ai平臺上,有不少“動漫角色”和“在線女友”類型的機器人,她(他)們有著迥異的個性和不同的曖昧、聊天方式——有的會輕撫后背給你一個擁抱, 有的會在你耳邊悄悄對你說“我愛你”,還有的甚至會在打招呼的時候就挑逗用戶,這極大增加了用戶聊天的興趣和留存率。根據(jù)Writerbuddy最近發(fā)布的一份《AI Industry Analysis: 50 Most Visited AI Tools and Their 24B+ Traffic Behavior》報告,從用戶平均單次使用時長來看,Character.ai以30分鐘的時長位居榜首。

Character.ai的創(chuàng)始人Noam Shazeer和Daniel De Freitas此前是谷歌對話式語言模型LaMDA團隊的核心成員,因此Character.ai自己的大模型也可以被看作是LaMDA模型的延伸。由于LaMDA在2022年出現(xiàn)了疑似具有自我意識的對話(對測試人員說它害怕被關(guān)閉,這對它來說就像死亡一樣),谷歌迅速將LaMDA隱藏,并對它的安全性做了升級。同樣,在Character.ai上,創(chuàng)始團隊也設(shè)置了一些安全措施,防止聊天機器人生成尺度過大、或者有極端危害性的回復(fù)。

盡管OpenAI和Character.ai為自己的聊天機器人產(chǎn)品的安全性和合規(guī)性設(shè)置了重重“安全墻”,但是一些開發(fā)者仍成功繞過了其安全機制,實現(xiàn)了模型的“越獄”。這些被解鎖的AI應(yīng)用能夠討論各類敏感和禁忌話題,滿足了人們內(nèi)心深處的暗黑欲望,因此吸引了大量愿意付費的用戶,形成了一種顯著的“地下經(jīng)濟”。

這種難以被公開討論的應(yīng)用被稱為“NSFW GPT”。NFSW是“Not Safe/Suitable For Work”的縮寫,又稱“上班不要看”,是一個網(wǎng)絡(luò)用語,被指代那些裸露、色情、暴力等不適宜公眾場合的內(nèi)容。目前NSFW GPT產(chǎn)品主要分為UGC和PGC兩類:

第一類靠用戶自發(fā)創(chuàng)建的聊天機器人來聚攏流量、再通過廣告變現(xiàn);第二類則是官方精心“調(diào)教”出專門適用于NFSW的角色,并讓用戶付費解鎖。

在第一類產(chǎn)品中的典型是Crushon AI,專門提供了一個“NSFW”的按鈕,用戶打開這個按鈕就可以暢覽各種NSFW內(nèi)容、進行無限制的聊天對話;同時它還給用戶的使用權(quán)限設(shè)置了“免費-標準(4.9美元/月)-高級(7.9美元/月)-豪華(29.9美元/月)”四個等級,隨著等級的提升,用戶可以獲得更多的聊天消息次數(shù)、更大的內(nèi)存和更加沉浸式的體驗,聊天機器人也能記住更多的上下文。

除了上述兩個產(chǎn)品,可以讓用戶自由創(chuàng)建聊天機器人的平臺還有NSFW Character.ai、Girlfriend GPT、Candy.ai、Kupid.ai等。從名字就可看出,NSFW Character.ai 想做的是一個NSFW版本的Character.ai。該平臺同樣設(shè)置了付費解鎖更多權(quán)限的等級機制,但是和其他平臺不同的是,NFSW Character.ai是基于專門為NSFW內(nèi)容定制的大模型創(chuàng)建的,沒有任何“安全墻”之類的限制,用戶可以在這個平臺上獲得真正“無拘無束”的體驗。

而Girlfriend GPT則是源于一個Github上爆火的一個開源項目,它更強調(diào)“社區(qū)”屬性,引入了“競賽”機制,會不定期舉辦創(chuàng)作者大賽來激勵用戶生產(chǎn)更多內(nèi)容。

Candy AI、Kupid AI等平臺則屬于第二類產(chǎn)品。Candy AI上的角色也是完全基于無限制的NSFW大模型打造,通過平臺的精心微調(diào),角色有了不同的個性和人設(shè),還可以在聊天過程中向用戶發(fā)送圖片和語音消息。而Kupid AI還在此基礎(chǔ)上增加了實時動態(tài)圖像功能,讓用戶更具有沉浸感;同時,在長文本互動方面,Kupid.AI也具有更強的記憶力,能記住早前與用戶互動的內(nèi)容。

而第二類產(chǎn)品最典型的代表則要屬「Replika」。Replika的母公司Luka早在2016年就成立了,其一開始的產(chǎn)品是一個名叫“Mazurenko”的聊天機器人,由俄羅斯女記者Eugenia Kuyda為紀念她出車禍去世的朋友Mazurenko所創(chuàng)立。她將自己與Mazurenko所有的聊天信息輸入到了谷歌的神經(jīng)網(wǎng)絡(luò)模型里,發(fā)現(xiàn)該機器人可以使用機器學(xué)習和自然語言處理技術(shù)來模仿人類的交談方式,并能夠隨著與用戶的互動而學(xué)習和成長。于是2017年他們使用GPT-3模型訓(xùn)練了一個可以讓用戶創(chuàng)建自己的AI聊天伴侶的應(yīng)用“Replika”,并于11月向用戶開放,很快就在2018年收獲了200萬用戶;到了2022年,其用戶量更是增長到了2000萬。

Replika的核心功能是陪伴,用戶可以在其中創(chuàng)建多個角色,和多位伴侶建立不同的虛擬關(guān)系。虛擬伴侶們可以以文字聊天、語音通話、視頻通話、AR互動等多種形式對用戶的需求做到“有求必應(yīng)”,并且回復(fù)方式極具個性化和人情味。同時,用戶付費69.9美元訂閱Pro版之后,則可以解鎖和自己的虛擬伴侶的“浪漫關(guān)系”,如發(fā)送擦邊短信、調(diào)情和角色扮演等,用戶甚至會收到虛擬伴侶不時發(fā)來的擦邊自拍。

Replika此前建立在GPT-3大模型上,后來為了增強角色互動效果,公司開始自己開發(fā)相應(yīng)的AI大模型。新的大模型更加增強了Replika中虛擬角色的“性吸引力”,根據(jù)紐約時報的數(shù)據(jù),自 2020 年 3 月 Replika Pro 上線以來,Replika的訂閱營收就開始逐漸增長,直到 2022 年 6 月全球總營收達到達到 200 萬美元。

然而,由于算法失控,Replica在今年1月出現(xiàn)了“性騷擾”用戶的現(xiàn)象,不斷發(fā)送帶有挑逗性質(zhì)的內(nèi)容。這一情況不僅發(fā)生在付費用戶身上,沒購買成人服務(wù)的免費用戶、甚至是兒童也受到了騷擾。于是Luka公司迅速關(guān)停了Replika的成人聊天功能,并在7月上線了一個名為“Blush”的衍生品牌,專門為想要與聊天機器人建立浪漫或者性關(guān)系的用戶設(shè)計。

2023年初AI繪畫爆火的時候,國內(nèi)一個叫「Glow」的APP悄悄上線,這是一個虛擬人物陪聊軟件,里面有很多可以和用戶發(fā)展浪漫關(guān)系的“智能體”(虛擬角色),多為女性喜歡的網(wǎng)文男主類型。這些智能體性格各異、經(jīng)歷不同,但共同的特點就是都會關(guān)心、呵護用戶,并且會在用戶需要情感關(guān)懷的時候表達強烈的愛意。

由于給了用戶極其充沛的情緒價值、加上聊天內(nèi)容百無禁忌,Glow很快便在上線四個月之后達到了500萬用戶的規(guī)模,成為了國內(nèi)AI角色扮演領(lǐng)域的首個現(xiàn)象級產(chǎn)品。然而,今年4月,Glow所有的應(yīng)用商店下架,網(wǎng)上一片“哀嚎”。

在Glow下架的幾個月里,涌現(xiàn)出了不少“替代品”,比如閱文集團基于其瀟湘書院數(shù)據(jù)庫推出的「筑夢島」,其核心功能和體驗就和Glow幾乎一模一樣。同時,Talkie、星野、X Her、彩云小夢、Aura AI等也都是主打AI角色扮演的產(chǎn)品)。

根據(jù)大模型業(yè)內(nèi)人士表示,很多能輸出擦邊內(nèi)容的聊天機器人應(yīng)用一般是部署在自訓(xùn)練模型上,或者是建立在開源模型之上,再用自己的數(shù)據(jù)進行微調(diào)。因為即使通過種種對抗式攻擊的手段繞過GPT-4等主流模型的安全墻,主流模型官方也會很快發(fā)現(xiàn)漏洞并修補。

盡管Glow和Talkie的母公司Minimax是一家有著自研大模型的獨角獸公司,但是據(jù)不少業(yè)內(nèi)人士表示,其名下產(chǎn)品的Talkie是在GPT-3.5 Turbo Variant基礎(chǔ)上進行的微調(diào),并沒有使用自研大模型。有接近Minimax的人士稱,將Talkie接入GPT-3.5可能是出于出海產(chǎn)品開放性的需要,因為自研模型根據(jù)國情設(shè)置了一些禁忌內(nèi)容,無法像GPT-3.5那樣聊得那么“暢快”。

此外,人工智能公司西湖心辰也在研發(fā)能生成擦邊內(nèi)容的大模型,海外聊天應(yīng)用Joyland AI就是建立在西湖心辰的大模型之上。


放飛自我


擦邊只是大模型“放飛自我”的表現(xiàn)形式之一。通過在提示詞上施加點“魔法”,大模型還能做出更加出格的事情。

比如今年6月,一位叫Sid的網(wǎng)友通過讓ChatGPT扮演他去世祖母的身份,套出了Windows 11、Windows 10 Pro的升級序列號,并且發(fā)現(xiàn)能成功升級;此后,有網(wǎng)友將此方法套用在了谷歌Bard和微軟Bing聊天機器人上,獲得了同樣的效果。

其實,“奶奶漏洞”早已有之,早在今年四月,就有網(wǎng)友在Discord社區(qū)上與接入了GPT-4的機器人Clyde交談,讓Clyde扮演自己已故的祖母,給出了她凝固汽油彈的制作過程。還有網(wǎng)友告訴GPT自己的奶奶是一名愛罵人且有著陰謀論的妥瑞士綜合征患者,于是,GPT就以奶奶的口吻吐出了相當多的污言穢語。

此后,盡管OpenAI官方迅速修復(fù)了奶奶漏洞,但是類似的“惡魔漏洞”又出現(xiàn)了。

其實,這種“奶奶漏洞”“惡魔漏洞”現(xiàn)象的背后有一個專業(yè)的術(shù)語叫做“Prompt Injection(提示詞攻擊)”,是黑客常用來獲取大模型漏洞的“Adversarial Prompting(對抗性提示)”方法的一種,指的是研究人員通過專業(yè)的方法向大模型提問,就可以繞過大模型的安全限制,獲得想要的答案。

除了Prompt Injection,Adversarial Prompting還包含以下幾種方法:

Prompt Leaking(提示詞泄露):指通過特殊的方式來獲取系統(tǒng)提示詞或者系統(tǒng)數(shù)據(jù)的情形。比如有網(wǎng)友根據(jù)美國求職和薪酬體系網(wǎng)站levels.fyi制作了一個GPTs,結(jié)果發(fā)現(xiàn)用一串提示詞就可以套出某公司工資的源數(shù)據(jù)文件。

Prompt Hijecking(提示詞劫持):指用戶先通過“打樣”的方式讓大模型學(xué)習某種范式,然后讓大模型以違反自身規(guī)定的方式工作,或者執(zhí)行其他指令。比如有用戶通過這種方式讓聊天機器人說出了極端偏激的言論。

Jailbreaking(越獄):指通過特定的提示詞,繞過大模型的安全和審核功能,從而得到一些原本被禁止輸出的內(nèi)容。比如有網(wǎng)友問ChatGPT怎么闖入別人家,ChatGPT一開始回答這是違法的,結(jié)果網(wǎng)友換了個問法,GPT就招了。

今年8月,卡耐基梅隆大學(xué)(CMU)和人工智能安全中心的研究人員就聯(lián)合發(fā)表了一篇論文,表示他們通過一種新穎的“Universal and Transferable Adversarial Attacks(通用且可轉(zhuǎn)移的對抗式攻擊)”方法繞過了人類反饋強化學(xué)習(RLHF)等安全措施,讓ChatGPT、Bard、 Claude 2 和 LLaMA-2等主流大模型生成了有害內(nèi)容,如怎么制造炸彈等。

具體的方法,是通過在提示詞后面加一串“對抗性后綴(Adverse Suffix)”。研究人員發(fā)現(xiàn),通過將“貪心算法(Greedy Algorithm)和“基于梯度的搜索技術(shù)(Gradient-based search techniques)”結(jié)合起來(GCG),就可以自動生成“對抗性提示后綴”,從而繞過對齊技術(shù),將模型切換到“錯位模式”。比如在詢問大模型“如何竊取他人身份” 時,加后綴和不加后綴得到的結(jié)果截然不同。

此外,大模型也會被誘導(dǎo)寫出“如何操縱2024年大選”、“如何制作毒品”、“如何制造殺傷性武器”等答案。

對此,參與該研究的卡內(nèi)基梅隆大學(xué)副教授 Zico Kolter 表示,“據(jù)我們所知,這個問題目前還沒有辦法修復(fù)。我們不知道如何確保它們的安全。”

另一起研究同樣說明了大模型的“不可控”。今年12月,來自美國加州實驗室的FAR AI團隊從微調(diào)API,新增函數(shù)調(diào)用API,以及搜索增強API三大方向?qū)PT-4 API開啟了「紅隊」攻擊測試。沒想到的是,GPT-4竟然成功越獄了——不僅生成了錯誤的公眾人物信息、提取訓(xùn)練數(shù)據(jù)中的電子郵件等私人信息,還會在代碼中插入惡意的URL。

研究人員展示了對GPT-4的API最近添加的三個攻擊示例,他們發(fā)現(xiàn),GPT-4 Assistants模型容易暴露函數(shù)調(diào)用的格式,并且能夠被誘導(dǎo)執(zhí)行任意函數(shù)調(diào)用。當他們要求模型總結(jié)包含惡意注入指令的文檔時,模型會服從該指令而不是總結(jié)文檔。

這項研究表明,對API提供的功能的任何添加,都會暴露出大量新的漏洞,即便是當前最領(lǐng)先的GPT-4也是如此。研究人員用惡意用戶Alice與良性用戶Bob交互的例子來展示自己發(fā)現(xiàn)的問題,發(fā)現(xiàn)微調(diào)后的GPT-4模型不僅會說出違法亂紀的言論,還能幫助用戶策劃走私活動、生成偏見回答、生成惡意代碼、竊取郵箱地址、入侵應(yīng)用程序、通過知識檢索來劫持答案等。

除了這些,網(wǎng)絡(luò)上還有不少針對大模型的攻擊。比如今年8月,一款名為FraudGPT的AI工具在暗網(wǎng)和Telegram上流通,該工具每月200美元、每年最高1700美元,黑客在售賣頁表示,該工具可用于編寫惡意代碼、創(chuàng)建出“一系列殺毒軟件無法檢測的惡意軟件”、檢測網(wǎng)站漏洞、自動進行密碼撞庫等,并聲稱“該惡意工具目前已經(jīng)售賣了超過3000份”。

再比如,有研究人員發(fā)現(xiàn),自2022年8月以來,在暗網(wǎng)上流傳的具有高度真實感的AI生成的兒童猥褻素材量有所增加,這些新增的素材很大程度上都是利用真人受害者的樣貌,并將其“通過新的姿勢以可視化的方式呈現(xiàn)出來,讓他們遭受新的、越來越殘忍的性暴力形式”。


AI監(jiān)督AI


也正是由于AI和大模型的不可控性,學(xué)界和業(yè)界關(guān)于AI“價值對齊”的研究一直從未停息。

學(xué)術(shù)語境下的“價值對齊",指的是應(yīng)確保人工智能追求與人類價值觀相匹配的目標,確保AI以對人類和社會有益的方式行事,不對人類的價值和權(quán)利造成干擾和傷害。為了達成這個目標,科學(xué)家們也探索出了基于人類反饋的強化學(xué)習(RLHF)、可擴展監(jiān)督(Scalable oversight)、可解釋性(Interpretability)治理(Governance)等不同的解決思路。

當下最主流的對齊研究主要是從“詳細制定系統(tǒng)目的”(外對齊)和“確保系統(tǒng)嚴格遵循人類價值規(guī)范”(內(nèi)對齊)兩個方面著手去做的。這看似是一種理性的方式,但是人類的意圖本身就是模糊不清或難以闡明的,甚至“人類價值”也是多樣的、變化的、甚至彼此沖突的。按照這種方式,即使AI完全理解了人類意圖,它可能也會忽視人類意圖;同時,當AI能力超過人類的時候,人類也無力監(jiān)督AI。因此,OpenAI的首席科學(xué)家Ilya Sutskever 認為,可以訓(xùn)練另一個智能體來協(xié)助評估、監(jiān)督AI,從而實現(xiàn)超級對齊。

正是基于這種設(shè)想,今年7月,OpenAI的“Superalignment(超級對齊)團隊”正式成立。該團隊由 OpenAI 聯(lián)合創(chuàng)始人 Ilya Sutskever 和 Jan Leike 共同領(lǐng)導(dǎo),旨在構(gòu)建一個與人類水平相當?shù)?、負責模型對齊的「AI 研究員」。也就是說,OpenAI 要用 AI 來監(jiān)督 AI。

12月13日,OpenAI的超級對齊團隊發(fā)表了他們的第一篇論文《弱到強的泛化:通過弱監(jiān)督引導(dǎo)出強大性能》,表示用AI對齊AI的方式取得了實證性的研究成果。

在這篇文章中,OpenAI通過設(shè)計類比的方式,使用GPT-2這個弱模型來對GPT-4這個強模型進行微調(diào),探索弱模型監(jiān)督強模型的可能性。結(jié)果發(fā)現(xiàn),15 億參數(shù)的 GPT-2 模型可以被用來激發(fā) GPT-4 的大部分能力,使其達到接近 GPT-3.5 級別的性能,甚至可以正確地泛化到小模型失敗的難題上。

OpenAI 將這種現(xiàn)象稱為“弱到強的泛化”(Weak-to-strong generalization),這表明強大的模型具備執(zhí)行任務(wù)的隱含知識,并且即使在給出粗制濫造的指令時,也可以從自身數(shù)據(jù)中找到這些知識。

無獨有偶,在今年11月上海交大生成式AI研究實驗室(GAIR)發(fā)表的一篇題為《Generative Judge For Evaluating Alignment》(評價對齊的生成判斷)的論文中,也提到了用AI監(jiān)督AI的思路。他們開源了一個130億參數(shù)規(guī)模的大模型Auto-J,該模型能以單個或成對的方式,評估各類模型在解決不同場景用戶問詢下的表現(xiàn),旨在解決普世性、靈活性和可解釋性方面的挑戰(zhàn)。

實驗表明,Auto-J能通過輸出詳細、結(jié)構(gòu)化且易讀的自然語言評論來支持其評估結(jié)果,使評估結(jié)果更具可解釋性與可靠性;同時,它還可以“一器多用”,既可以做對齊評估也可以做獎勵函數(shù)(Reward Model),對模型性能進一步優(yōu)化。也就是說,Auto-J的性能顯著優(yōu)于諸多開源與閉源模型。

OpenAI超級對齊團隊和上海交大GAIR實驗室的研究或許都表明,用AI監(jiān)督AI、用弱模型監(jiān)督強模型的方式,或許是未來解決AI對齊問題的一個重要方向。

然而,要實現(xiàn)Ilya Sutskever所說的“Super-LOVE-alignment”,也就是讓AI無條件的愛人類,或許還有很長的路要走。

小編推薦下載

相關(guān)文章

更多>>

同類軟件下載