首頁 > 區(qū)塊鏈 > Sora會“殺死“剪映嗎？

Sora會“殺死“剪映嗎？

時間：2024-02-20 10:46:27

來源：hao86下載

區(qū)塊鏈

【#區(qū)塊鏈# #Sora會“殺死“剪映嗎？#】

文章來源：字母榜

作者：趙晉杰

圖片來源：由無界AI生成

Sora的橫空出世，對張一鳴來說，亦喜亦憂。

被OpenAI的ChatGPT震撼過一輪的AI大模型行業(yè)，又一次被這家公司推出的首個視頻生成模型Sora震撼了一把。

不同于Runway、Pika等僅能生成不足10秒，且鏡頭視角單一、內(nèi)容高度失真的視頻，Sora的視頻生成長度不僅突破到了60秒，且能實現(xiàn)單視頻的多角度鏡頭切換，還能最大限度還原現(xiàn)實世界的真實場景。

在ChatGPT上被驗證過的模型性能縮放法則（scaling laws），被OpenAI CEO阿爾特曼移植到視頻領(lǐng)域后，被證明其“大力出奇跡”的策略仍然有效，即增加模型的大小將繼續(xù)提高性能。ChatGPT所為人稱贊的“智能涌現(xiàn)”特征，再一次出現(xiàn)在Sora身上。

OpenAI CEO阿爾特曼

面對來自Sora的“降維打擊”，AI視頻領(lǐng)域的創(chuàng)業(yè)者中，有的如Runway CEO克里斯托瓦爾·巴倫蘇埃拉一樣，做好了“Game On”的準(zhǔn)備，有的如Pika創(chuàng)始人郭文景一樣，開始籌備對標(biāo)Sora的新產(chǎn)品，也有人如Stability AI CEO埃馬德·莫斯塔克一樣，不由感慨“阿爾特曼真是一個魔術(shù)師”，并將Sora視為AI視頻界的GPT-3時刻。

但對字節(jié)跳動來說，這未必是個好消息，因為 Sora所處的視頻生成賽道，正是眼下字節(jié)跳動旗下剪映所瞄準(zhǔn)的AI創(chuàng)新方向。2月份從抖音轉(zhuǎn)崗剪映后，據(jù)界面新聞報道，抖音前CEO張楠即將推出一個AI生圖和視頻的產(chǎn)品。

正打算在AI生成視頻領(lǐng)域大干一番的張楠，還沒等到產(chǎn)品落地的那一刻，其內(nèi)部再創(chuàng)業(yè)的計劃，便率先遭遇了Sora的當(dāng)頭一擊。

OpenAI是張楠決心押注AI再創(chuàng)業(yè)的催化劑。2022年OpenAI旗下文生圖模型DALL-E 2的發(fā)布，讓張楠首次直觀感受到AI圖像生成，給傳統(tǒng)內(nèi)容創(chuàng)作方式所帶來的顛覆式變革威力，這既是字節(jié)跳動全球CEO梁汝波口中“會產(chǎn)生新的創(chuàng)作平臺”的機會，也是促成張楠轉(zhuǎn)崗剪映的原因之一。

生成式AI，還是打開字節(jié)跳動增長天花板的一次必要嘗試。2023年公開信中，張一鳴提到，字節(jié)跳動無法錯過AGI（通用人工智能），并指出AGI是抖音、TikTok在全球發(fā)現(xiàn)新的增長機遇不可或缺的伙伴，“它可以解決字節(jié)跳動的第二曲線增長困境?！?/p>

2019年剪映的出現(xiàn)，幫助抖音內(nèi)容生態(tài)從偏向PGC（專業(yè)機構(gòu)生產(chǎn)內(nèi)容）轉(zhuǎn)向UGC（用戶生產(chǎn)內(nèi)容），大大降低用戶創(chuàng)作門檻。如今，隨著平臺內(nèi)容生態(tài)轉(zhuǎn)向PUGC融合態(tài)，其對用戶創(chuàng)作視頻的成本和整體質(zhì)量，又提出了新的要求。AI生成視頻產(chǎn)品的出現(xiàn)，則對盡可能拉低每一個普通人創(chuàng)作視頻的門檻，提供了一種現(xiàn)實可能性，抖音乃至TikTok，都有望借此在內(nèi)容創(chuàng)作者數(shù)量上迎來新的爆發(fā)。

值得一提的是，AI視頻生成更是一個頗具前景的創(chuàng)業(yè)賽道。截至2023年底，該賽道已經(jīng)涌現(xiàn)出一批獨角獸公司：Midjourney估值100億美元，Stability AI估值40億美元，Runway估值15億美元。年初爆火出圈的新貴Pika，成立時間不足一年，其估值已經(jīng)達到2.5億美元。

但在Sora的突然襲擊之下，留給張一鳴和張楠孵化下一個AI視頻生成獨角獸的時間，越發(fā)緊張了。

一

Sora亮相之前，字節(jié)內(nèi)部也在研發(fā)AI生成視頻產(chǎn)品。

1月份，字節(jié)跳動研究人員在arXiv上發(fā)表了一篇論文，其中介紹了字節(jié)正在開發(fā)的一款文本生成視頻的模型，被命名為?MagicVideo-V2，其通過集成多個模塊，包括文本到圖像模型、視頻運動生成器、參考圖像嵌入模塊和插值模塊，實現(xiàn)從文字到視頻的自動化生成。

MagicVideo-V2想要解決的問題，是Runway、Pika等在生成視頻中所表現(xiàn)出來的保真度不高、運動不自然、分辨率不高、風(fēng)格不多樣等。

字節(jié)旗下產(chǎn)品剪映原有的“圖文成片”功能模塊，在進行文生視頻轉(zhuǎn)換過程中，同樣面臨上述難題的拷問。

在等待MagicVideo-V2完善研發(fā)，從demo走向量產(chǎn)上線之際，張楠在過去一個月多的用戶訪談中，收集到了更多來自一線創(chuàng)作者對AI生成視頻產(chǎn)品的不滿和期待，其中之一就包括部分創(chuàng)作者“為了更好表達自己的想法，幾乎無法用一個產(chǎn)品完成所有的創(chuàng)作，要橫跨幾個產(chǎn)品之間，用復(fù)雜的編輯和交互流程，才能完成他們的表達?！?/p>

去年8月，UP主數(shù)字生命卡茲克制作的一條爆款視頻《流浪地球3預(yù)告片》，便先后運用了MidJourney和Runway等多款產(chǎn)品，且經(jīng)歷了長達5天的后期剪輯拼接。

造成UP主數(shù)字生命卡茲克創(chuàng)作困難的主要原因，便出在AI軟件不夠智能和便捷上。Sora出現(xiàn)之前，業(yè)內(nèi)文生視頻的默認方式是，只能輸出單一、且往往是靜止視角的短視頻片段，畫面背景還多呈現(xiàn)賽博朋克風(fēng)。

Sora出現(xiàn)之后，文生視頻領(lǐng)域的舊識被打破，不管多么復(fù)雜的視角、場景切換，都只用通過單一提示詞便可生成，在兼顧便捷性的同時，最大限度保證了生成內(nèi)容與真實物理世界的相關(guān)性。

Sora提示詞示例圖源：官網(wǎng)截圖

字節(jié)和張楠規(guī)劃中AI視頻所應(yīng)具備的更高保真度生成效果、更清晰生成畫面、更順暢自然的邏輯理解能力等，率先被Sora一一實現(xiàn)。

需要注意的是，尚未對外開放測試的Sora，眼下還存在諸多不完善之處，按其官方說法，“仍然處于世界模型研究應(yīng)用的初期階段。”

Meta首席科學(xué)家楊立昆便直接質(zhì)疑Sora：“僅憑能夠根據(jù)提示生成逼真的視頻，并不能說明系統(tǒng)真正理解了物理世界?！?/p>

OpenAI在官網(wǎng)介紹中也提醒道，Sora可能難以準(zhǔn)確模擬復(fù)雜場景的物理原理，并且可能無法理解因果關(guān)系，還可能混淆提示的空間細節(jié)，例如混淆左右，并且可能難以精確描述隨著時間推移發(fā)生的事件，例如遵循特定的相機軌跡。這些缺陷可能導(dǎo)致Sora生成一些不合邏輯的視頻，如一個人在跑步機上跑錯方向。

這些尚未解決的Bug，是OpenAI決定暫未全面開放Sora的原因之一。如今，OpenAI正選取部分用戶展開內(nèi)測，以評估關(guān)鍵領(lǐng)域的潛在危害或風(fēng)險，以期獲得寶貴反饋，進而推動模型進步。

二

ChatGPT發(fā)布后，外界開始意識到AGI時代有了實現(xiàn)的可能性，Sora等視頻生成模型，無疑是推動AGI到來的重要加速器。

OpenAI直接在官網(wǎng)上寫道：“Sora為能夠理解和模擬真實世界的模型提供了基礎(chǔ)，我們相信這一能力將是實現(xiàn)AGI的重要里程碑?！?/p>

想要借助視頻生成模型，推動AGI帶來的不止OpenAI一家公司。去年12月，Runway提出要開發(fā)通用世界模型（General World Model），用旗下的視頻生成Gen-2來模擬整個世界，“我們相信，人工智能的下一個重大進步將來自理解視覺世界及其動態(tài)的系統(tǒng)，這就是為什么我們要圍繞通用世界模型開始一項新的長期研究工作?！?/p>

理解現(xiàn)實世界的物理法則，成為通往AGI的必經(jīng)之路。360創(chuàng)始人周鴻祎在點評Sora時直言，一旦AI接上攝像頭，把現(xiàn)存所有視頻都看一遍，其對世界的理解能力將遠遠超過文字學(xué)習(xí)?！斑@就離AGI真的不遠了，不是10年20年的問題，可能一兩年很快就可以實現(xiàn)?！?/p>

正是在AGI相關(guān)概念刺激之下，AI生圖和視頻領(lǐng)域的垂類大模型公司，估值迎來飆升，出現(xiàn)了Midjourney、Stability AI、Runway等一批明星獨角獸創(chuàng)業(yè)公司。

具體到字節(jié)跳動的業(yè)務(wù)層面，圖片/視頻生成還能幫助提效字節(jié)的商業(yè)化需求，如幫助字節(jié)廣告客戶低成本、便捷地制作視頻。有字節(jié)人士告訴晚點PostLate，字節(jié)廣告客戶投放總成本里有10%-20%為視頻制作成本，從去年開始，字節(jié)已在開發(fā)一些相關(guān)產(chǎn)品幫廣告客戶壓縮這部分投入。

盡管在推出類似文生視頻產(chǎn)品方面落后一步，但對張楠來說，反過來也迎來了一個摸著Sora過河的機會。

ChatGPT亮相之前，算法方面的短板，一度是行業(yè)研發(fā)對話大模型的主要障礙之一。人工智能專家丁磊博士解釋道，部分大模型創(chuàng)業(yè)公司“還不是那么會訓(xùn)練大模型……如果訓(xùn)練方法錯的話，你有再多的GPU也沒用?！?/p>

在追趕Sora過程中，Pika創(chuàng)始人郭文景提到，目前生成式視頻發(fā)展的一個重要限制是算法的成熟度，“語言對話模型大家已經(jīng)知道大概的方法，算法相對比較成熟了。但視頻之前還沒有很好的算法。”

Sora的發(fā)布，無疑再次給行業(yè)提供了一個行之有效的解題思路，也給郭文景和張楠這樣的同領(lǐng)域創(chuàng)業(yè)者，提供了一條成熟的算法借鑒路線。

三

隨著Sora正式亮相，在上一波語言對話模型上落后的字節(jié)，在視頻領(lǐng)域再次陷入被動追趕窘態(tài)。

2022年11月ChatGPT發(fā)布之后，百度、阿里等國內(nèi)大廠相繼在去年三四月份推出自研大模型文心一言和通義千問，但直到8月份，字節(jié)才對外亮相了云雀大模型。

動作遲緩的后果之一是，當(dāng)文心一言月活已經(jīng)破億后，字節(jié)同類產(chǎn)品“豆包”的月活，還不足千萬。

在1月底的新一期All Hands（員工面對面）上，梁汝波著重以AI進展緩慢說明公司正在變得遲鈍的現(xiàn)況，稱 “公司層面的半年度技術(shù)回顧，直到2023年才開始考慮GPT，而業(yè)內(nèi)做得比較好的大模型創(chuàng)業(yè)公司，都是在2018年至2021年創(chuàng)立的。”

字節(jié)關(guān)注大模型并不算晚。據(jù)晚點LatePost報道，2020年6月OpenAI發(fā)布GPT-3后，字節(jié)曾訓(xùn)練了一個數(shù)十億參數(shù)的生成式語言大模型，由于參數(shù)規(guī)模有限，該模型生成能力一般，字節(jié)當(dāng)時看不到它的商業(yè)化可能性，“ROI（投資回報率）算不過來”，這次探索便淺嘗輒止。

如今選派張楠這樣一員大將用AI改造剪映，被外界視為是字節(jié)內(nèi)部希望提速AI發(fā)展的一個信號。

張楠

但在完成內(nèi)部調(diào)兵遣將之后，留給張楠的挑戰(zhàn)不只是追趕時間上的緊迫，還有外部芯片斷供所帶來的算力荒難題。

去年10月份，英偉達旗下A100、A800、H100、H800和L40S等五種GPU芯片禁令正式生效。對于一眾國內(nèi)大模型廠商而言，英偉達芯片的斷供，在客觀上成為其追趕ChatGPT乃至GPT-4的最大阻力。

在縮放法則（scaling laws）指導(dǎo)下，阿爾特曼提出了芯片需求每三四個月就要翻一番的大模型時代“摩爾定律”。這無疑再次拉高著張楠追趕Sora的門檻。

“對于國內(nèi)廠商而言，這種大力出奇跡的模式跑通之后，硅谷會進入更為狂熱的算力軍備競賽。字節(jié)們的算力短板會進一步放大?！闭猩套C券研究員劉枋說道。

參考資料：
《剪映全員信》張楠
《揭秘字節(jié)AI版圖：調(diào)集多位高管參戰(zhàn)，數(shù)款重磅產(chǎn)品內(nèi)測》Tech星球
《大廠大模型：久違的一把手工程》晚點LatePost
《“今天，所有VC的會上都在談Sora”》投中網(wǎng)
《Sora發(fā)布后，Pika創(chuàng)始人獨家回應(yīng)鈦媒體：很振奮，我們將直接沖》鈦媒體

小編推薦下載