字節(jié)自研大模型，卻因用ChatGPT被封號惹爭議？官方回應(yīng)了

時間：2023-12-18 13:08:17

來源：hao86下載

區(qū)塊鏈

【#區(qū)塊鏈# #字節(jié)自研大模型，卻因用ChatGPT被封號惹爭議？官方回應(yīng)了#】

沒想到，字節(jié)的大模型項目是被這樣曝光的。

原文來源：機(jī)器之心

圖片來源：由無界 AI生成

上周末，有外媒報道稱，字節(jié)跳動在使用 OpenAI 技術(shù)開發(fā)自有大語言模型時，因違反 OpenAI 服務(wù)條款從而遭賬號禁用。

據(jù) The Verge 報道，字節(jié)跳動內(nèi)部正在研發(fā)的大語言模型項目名為「種子計劃」（Project Seed）。

由于訓(xùn)練大模型需要大量問答知識，該項目被曝出一直在秘密使用 OpenAI 的技術(shù)來充實數(shù)據(jù)集。

在大模型領(lǐng)域，利用其他 AI 生成的內(nèi)容用于訓(xùn)練的「取巧」行為雖然并不少見，但經(jīng)常會被認(rèn)為是一種超出底線的行為。在 ChatGPT 上，濫用 AI 生成的數(shù)據(jù)直接違反了 OpenAI 的服務(wù)條款，其規(guī)定其模型輸出不能用于「開發(fā)任何與我們的產(chǎn)品和服務(wù)競爭的人工智能模型」。

在 11 月 14 日 OpenAI 對于 ChatGPT、DALL?E 的條款更新中還規(guī)定了用戶：

不得進(jìn)行逆向工程、反編譯或參與模型提取或竊取，包括模型和系統(tǒng)；
不得以自動或程序的方式提取生成內(nèi)容；
不得把 ChatGPT 生成的內(nèi)容偽裝成人類生產(chǎn)的內(nèi)容。

OpenAI 對于違規(guī)用戶的處理辦法就是在通知后終止服務(wù)。

完整協(xié)議：https://openai.com/policies/business-terms

那么，字節(jié)跳動「種子計劃」的具體內(nèi)容以及如何被懷疑違反 OpenAI 使用條款的呢？

根據(jù) The Verge 獲得的內(nèi)部文件消息，字節(jié)跳動更多是在「種子計劃」的早期使用 OpenAI 的技術(shù)，并在大約幾個月前指示該團(tuán)隊在模型開發(fā)的任何階段停止使用 GPT 生成的文本。大約同一時期，字節(jié)跳動發(fā)布了自有 AI 大模型豆包（Doubao）。

相關(guān)員工非常清楚自身的行為，并討論過如何通過「數(shù)據(jù)脫敏」方式來進(jìn)行規(guī)避。不過他們?nèi)匀唤?jīng)常達(dá)到 OpenAI API 的最大訪問上限。

當(dāng)?shù)貢r間周五，OpenAI表示，字節(jié)跳動的賬戶已被暫停使用。

OpenAI 發(fā)言人 Niko Felix 在給 The Verge 的一份聲明中表示，「所有 API 客戶都必須遵守 OpenAI 的使用條款，以確保我們的技術(shù)得到恰當(dāng)?shù)厥褂谩ｋm然字節(jié)跳動對我們 API 的使用量很少，但在進(jìn)一步調(diào)查的同時，我們已經(jīng)暫停他們的賬戶。如果最終發(fā)現(xiàn)字節(jié)跳動的使用不符合政策，則將要求他們進(jìn)行必要的更改或終止他們的賬戶?！?/p>

字節(jié)跳動發(fā)言人 Jodi Seth 做出了回應(yīng)，否認(rèn)公司有任何不當(dāng)行為，并澄清獲得了使用 GPT API 的權(quán)限。

她表示，「字節(jié)跳動已獲得微軟授權(quán)，可以使用 GPT API。GPT 生成的數(shù)據(jù)只在種子計劃早期開發(fā)中用來注釋模型，并已于今年年中從字節(jié)跳動的訓(xùn)練數(shù)據(jù)中移除了。我們使用 GPT 來支持非中國市場的產(chǎn)品和功能，而在中國市場使用我們自研的模型來支持豆包?！?/p>

圖源：https://the-decoder.com/openai-bans-tiktok-company-bytedance-from-chatgpt-due-to-possible-data-theft/

同時，微軟發(fā)言人 Frank Shaw 也發(fā)表了一份聲明，「像 Azure OpenAI 服務(wù)這樣的 AI 解決方案是我們有限訪問框架的一部分，所有客戶必須申請并獲得微軟批準(zhǔn)后才能訪問。我們制定標(biāo)準(zhǔn)并提供資源，幫助客戶負(fù)責(zé)任地使用這些技術(shù)，并遵守相關(guān)服務(wù)條款。我們還制定流程來檢測濫用行為，并在企業(yè)違反準(zhǔn)則時停止他們的訪問權(quán)限?！?/p>

12 月 17 日，字節(jié)跳動相關(guān)負(fù)責(zé)人回應(yīng)了機(jī)器之心的置評請求，稱公司在使用 OpenAI 相關(guān)服務(wù)時，強(qiáng)調(diào)要遵守其使用條款，其正與 OpenAI 聯(lián)系溝通，以澄清外部報道可能引發(fā)的誤解。

以下是字節(jié)跳動對使用 OpenAI 服務(wù)相關(guān)情況的介紹：

1、今年年初，當(dāng)技術(shù)團(tuán)隊剛開始進(jìn)行大模型的初期探索時，有部分工程師將 GPT 的 API 服務(wù)應(yīng)用于較小模型的實驗性項目研究中。該模型僅為測試，沒有計劃上線，也從未對外使用。在 4 月公司引入 GPT API 調(diào)用規(guī)范檢查后，這種做法已經(jīng)停止。

2、早在今年 4 月，字節(jié)大模型團(tuán)隊已經(jīng)提出了明確的內(nèi)部要求，不得將 GPT 模型生成的數(shù)據(jù)添加到字節(jié)大模型的訓(xùn)練數(shù)據(jù)集，并培訓(xùn)工程師團(tuán)隊在使用 GPT 時遵守服務(wù)條款。

3、9 月，公司內(nèi)部又進(jìn)行了一輪檢查，采取措施進(jìn)一步保證對 GPT 的 API 調(diào)用符合規(guī)范要求。例如分批次抽樣檢測模型訓(xùn)練數(shù)據(jù)與 GPT 的相似度，避免數(shù)據(jù)標(biāo)注人員私自使用 GPT。

4、未來幾天里，我們會再次全面檢查，以確保嚴(yán)格遵守相關(guān)服務(wù)的使用條款。

自 ChatGPT 出現(xiàn)以來，各大科技公司都在加緊研發(fā)能夠與之匹配的競品，不過由于面向 C 端和海外市場，面臨更多技術(shù)和法規(guī)等方面挑戰(zhàn)，字節(jié)對于大模型的宣傳相對低調(diào)。在今年 6 月，火山引擎發(fā)布了大模型平臺火山方舟，8 月份，字節(jié)自研大模型「云雀」通過備案，開啟了 AI 對話產(chǎn)品「豆包」的對外測試。

在技術(shù)和落地應(yīng)用等方面，今年的生成式 AI 可謂有了飛躍式的進(jìn)步，但在安全和隱私保護(hù)等問題上，目前人們?nèi)匀淮嬖谝恍┮蓱]。

參考內(nèi)容：

https://www.theverge.com/2023/12/15/24003151/bytedance-china-openai-microsoft-competitor-llm

https://www.businessinsider.com/bytedance-openai-tech-artificial-intelligence-tiktok-sam-altman-2023-12

小編推薦下載