首頁 > 區(qū)塊鏈 > 專訪｜VideoPoet核心作者：揭秘谷歌革命性視頻生成技術(shù)

專訪｜VideoPoet核心作者：揭秘谷歌革命性視頻生成技術(shù)

時間：2024-01-05 09:38:00

來源：hao86下載

區(qū)塊鏈

【#區(qū)塊鏈# #專訪｜VideoPoet核心作者：揭秘谷歌革命性視頻生成技術(shù)#】

原文來源：深思SenseAI

圖片來源：由無界 AI生成

在全球新一代 AI 獨角獸的競賽中，視頻生成技術(shù)作為最具潛力的領(lǐng)域之一備受關(guān)注。最近，Google 推出了名為 VideoPoet 的大型語言模型，它不僅能夠從文本和圖像生成視頻，還具備風格遷移、視頻聲音頻等功能，其動作生成的豐富性和流暢度令人印象深刻，被廣泛認為是革命性的 zero-shot 視頻生成工具。本期專訪特邀 VideoPoet 的核心作者于力軍同學和 Google 機器學習工程師 Yishuai，與 SenseAI 一同進行技術(shù)思考與應(yīng)用探索。

視頻生成的技術(shù)層面是在現(xiàn)有的技術(shù)框架下的規(guī)?；€是會有更加創(chuàng)新的框架出現(xiàn)，目前是未知的，唯一確定的是，今年的視頻生成技術(shù)還會有新一輪的迭代，然后走向成熟，最終促使應(yīng)用層的又一輪爆發(fā)。

視頻生成的應(yīng)用層面，是短視頻先行，消費側(cè)需求時長更短，質(zhì)量要求更靈活；同時供給側(cè)，受制于現(xiàn)有算法架構(gòu)和算力消耗，ROI 還未商業(yè)可行；內(nèi)容品類上，看好動漫動畫，自然風光和教育方向。

未來視頻生成是混合動態(tài)的：拍攝不會被取代，依然是重要素材的來源，但生成是很好的補充、延展、想象具像化。

模型即產(chǎn)品：AI應(yīng)該在人類創(chuàng)作和具像化過程中的每一步去適應(yīng)人類，輔助人類，這個前提就是模型具備了多模態(tài)輸入能力和下游生成編輯能力的最小單元，和模型的交互是極簡和動態(tài)的，在任意時間維度和生成狀態(tài)中，都可以靈活的輸入和編輯，模型會自己去理解和生成。

01 背景與研究方向

在本期播客中的嘉賓于力軍，目前是卡內(nèi)基梅隆大學的人工智能領(lǐng)域的博士生。于博士的學術(shù)之旅始于北京大學，專業(yè)為計算機科學和經(jīng)濟學。他在 CMU 的研究主要是與?Alexander?Hauptmann?博士合作，聚焦于多媒體的研究。他們的團隊從多媒體檢索起步，逐漸過渡到視頻理解，并最終專注于視頻生成技術(shù)的創(chuàng)新。于博士特別致力于多模態(tài)大型模型的研究，重點是多任務(wù)生成的視角。此外，他與谷歌有著長期的合作關(guān)系，他在谷歌的導師是Jiang Lu老師，他是CMU研究組的畢業(yè)生，目前在谷歌擔任研究科學家，專注于視頻生成領(lǐng)域。他們在谷歌的很多重要研究都是圍繞這一主題展開的。

02 技術(shù)架構(gòu) Q&A

SenseAI：基于LLM的視頻生成模型會不會在長期比Diffusion 類型的模型更具潛力和優(yōu)勢？LLM的架構(gòu)和 Diffusion 架構(gòu)圖片和視頻生成，未來是否會到一個趨勢，就是各自生成的質(zhì)量都非常接近，但是 LLM 架構(gòu)在視頻內(nèi)容和邏輯上會更突出。還是會有別的趨勢？

于博士：這是一個很好的問題，剛才問題當中所拋出的這些觀點，我大體上是同意。因為現(xiàn)在在語言領(lǐng)域LLM 發(fā)展的非常好，它有這個很強的邏輯能力，推理能力，然后同時，現(xiàn)在又具有這個非常好的多模態(tài)泛化能力，那么我是相信使用 LLM 作為 backbone 去做這個視頻生成，在各方面的擴展性，這個邏輯一致性上會比將來的 Diffusion 模型更好。當然這是建立在我們現(xiàn)在的觀測上，也許有一天這個 Diffusion Model 也會產(chǎn)生一定的進步。但視覺質(zhì)量上，將來可能是會逐漸飽和的，現(xiàn)在我們也看到一些這個產(chǎn)品出來，已經(jīng)達到了一定程度上的可能性。而將來我們可能更多是在內(nèi)容上去進行推進，然后其實這兩個技術(shù)路線也不是非此即彼的，我們也可以這個結(jié)合 LLM作為這個Latent Model（潛在模型）去利用它的這個多模態(tài)的zero shot和邏輯性。最后，我們再結(jié)合上一定的 Diffusion 的高質(zhì)量的能力去做最后一步，從Latent space回到Pixel space的過程。將來也可能是一個混合的架構(gòu)。

SenseAI：介紹一下VideoPoet獨特的架構(gòu)設(shè)計

于博士：它是概念上非常簡單的模型。我們就是利用了一個大語言模型結(jié)構(gòu)的 Causal 的 Transformer。然后這個 Transformer，完全是在 Token Space進行操作，那么我們的 Token，包括圖像和視頻 Token，然后也包括音頻 Token，同時還包括這個文本的這個Embedding。那么我們怎么把這些模態(tài)都統(tǒng)一到這個 Token space，我們使用了每一個模態(tài)特有的 Tokenizer 。這里面圖片和視頻，我們使用了我之前設(shè)計的 MAGVIT-v2 Tokenizer。我們可以把圖片和任意長度的視頻 Tokenize 到一個空間里，然后同時它有很高的重建的效果，所以保證了我們 Video 的生成質(zhì)量。然后音頻部分，我們使用的是 SoundStream 這是一個已經(jīng)成熟的 Tokenizer。然后文本部分，我們就是使用已有的 T5 去 Embedding，這些模態(tài)混合在一塊兒，然后我們進行大量的多模態(tài)，多任務(wù)的預訓練。使得他能夠進行文生視頻，圖生視頻、視頻生音頻，風格轉(zhuǎn)換以及視頻編輯等等其他各種應(yīng)用。

（參考：https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html）

SenseAI：把這個 LLM 的基于一個多模態(tài)詞匯表進行訓練，然后能夠生成就您講的高保真、長時間，而且動作的復雜度很高的這類視頻。我們想了解在里面語音模型它提供怎么樣價值？我們對語言模型的選擇會有很高要求嗎？

于博士：?其實在這個里面，language model是比較重要的一個模型。當然我們說這些 tokenizer 也很重要，那 tokenizer 其實對每個模態(tài)進行一定比例的壓縮，然后使得 language model 更好的學習。而最后，我們把所有的模態(tài)都放上 token ，然后這里面的每一個生成任務(wù)，都是由這個 language model 它在進行學習的，然后它在大規(guī)模的預訓練之后，可以進行很好的這個 generalization 以及 transfer。對于model 的選擇有很高的要求，目前來看，我們需要不小的參數(shù)量來放在這個 language model 里面，使得它才能學習到我們目前展現(xiàn)出來這些能力。但是你說如果具體到這個LLaMA、 GPT 還是 PaML 或者 Gemini 這種級別的 architecture comparison，我覺得目前可能不會有那么大的影響。它是一個 Causal Language Model這件事很重要。

SenseAI：這樣也可以保證或是幫助我們的模型，隨著 backbone 的進化而不斷進化對嗎？

于博士：?對的，我們可以始終就是利用 language space 最新的這個研究來提升我們視頻生成以及多模態(tài)的生成質(zhì)量。

SenseAI：明白，因為前面你已經(jīng)提到關(guān)于這個MAGVIT 的 tokenizer 的使用了，所以我們想了解一下，對于這個 tokenizer 的選擇上，我們其實很關(guān)注它的哪些性能，它對穩(wěn)我們這個視頻生成的穩(wěn)定性上都提供怎么樣的幫助，未來，我們可能還會嘗試一些其他的怎么樣的一些 tokenizer？

于博士：?對 tokenizer 其實是以 transformer 作為backbone的，就是以 language model 的視頻生成模型里面非常重要的一個模塊，我們很早就開始做這個系列了，大概去年夏天的時候。那個時候最早我們做了一版這個 3D tokenizer，當時是市面上最好的。然后我們基于這個 tokenizer 試圖去 scale up這個事情， transformer 模型做到一定程度之后，我們就會發(fā)現(xiàn)它仍然被這個tokenizer bottleneck。

所以今年這個夏天左右的時候，我們就開始了這個 MAGVIT-V2 的tokenizer的研究，主要的目標有兩個，一個是我們希望大幅提升這個視頻的視覺的質(zhì)量。同時，我們也希望能夠盡可能利用更多的更大的詞表。這是因為之前的視覺 tokenizer，通常它只有 1000 到 8000的詞表大小。對于 language model 來說，這其實是非常小的，不太好發(fā)揮出它現(xiàn)在這么大規(guī)模參數(shù)的能力。而我們常見的語言模型，通常在 200K 左右，那么我們在 MAGVIT-V2 里面通過一個創(chuàng)新的quantization 辦法，使得我們的詞表也可以 scale 到200K 甚至更大。然后同時我們在 MAGVIT-V2 里面進行了一個改動，就是我們不再用這個純 3D的model，我們已經(jīng)發(fā)現(xiàn)它比 2D 要很好很多，但是其實比單純的這個 3D modeling 更好的一個變種是causal 3D modeling，就是我們的結(jié)合它視頻在時間軸上的這個自然屬性，永遠只依賴前面的幀。然后這樣的話使得我們第一幀就是單獨的，使得它可以做圖片和視頻的 joint tokenization。同時，它可以做視頻的無限長的 tokenization，然后這個也在結(jié)合causal LLM的時候，使得我們對后面的token預測要簡單很多，因為它永遠是一個單向的dependency，

在未來的話，tokenizer 我覺得還有很大的提升空間，因為目前來看，它仍然是一個很小的模型，只有幾百 million 的參數(shù)，相比于我們的這個 VideoPoet的 Transformer 來說是非常小的，然后在 scalability上它可能仍然是一個 bottleneck。然后我們會去探索如何把這個模型做大？如何去修改其中目前的一些訓練的目標，比如說它仍然設(shè)計了一個GAN loss，沒有那么穩(wěn)定，那么有沒有可能用 diffusion 或者consistency 進行替代，這也是值得一個研究的課題。

（參考 https://magvit.cs.cmu.edu/v2/）

SenseAI：以后未來任何使用圖片做圖形encoding的地方都能用上這個 tokenizer，如果是這樣情況下，那么 diffusion 類型的模型有沒有可能也能先用MAGVIT 的 tokenizer。有沒有這類的可能？

于博士：?這是非常好的問題，我們是希望未來需要使用圖片 encoder 的地方都可以使用它。然后同時我們在進行 MAGVIT-V2 設(shè)計的時候也進行了多方面的評估。首先，我們在標準的這個 benchmark 上獲得了一定效果；然后同時我們也使用它單純進行了video compression，我們發(fā)現(xiàn)它在相同 bandwidth下，它的 compression quality 就是在你重建出來之后，是比目前廠商用的 H265 要更好的。是和下一代的算法叫 H266VVC，是可以打一個平手的。當然目前的 tokenizer，在壓縮和解壓縮過程中，它需要用到 GPU 或者 CPU 可能 cost 還會更大一點。然后第三點就是我們也進行了這個視頻理解方面的這個評測，發(fā)現(xiàn)這個 tokenizer 的 token對于自監(jiān)督學習，然后用于動作識別等等的應(yīng)用也是有幫助的。然后涉及到 diffusion model，這也是一個非常好的問題。最近也有另一個工作，它就是使用了MAGVIT-V2 的 encoder 和 decoder，然后在這個enorder 和 decoder的這個 latent space里面做了一個 latent diffusion，那么 diffusion model一樣可以用我們的 tokenizer 或者更準確的說，我們這一類tokenizer 目前已經(jīng)測試過幾個 transformer，全都是有非常好的性能。

SenseAI：關(guān)于這個動作的豐富性和合理性，一直是這個視頻生成的一個問題。我們跟其他團隊交流過程中，大家也會提到類似這個世界模型的這種概念就是對環(huán)境物體交互基礎(chǔ)理解，可以解決這個問題，您對這方面怎么看，在這個方面上有沒有持續(xù)的優(yōu)化。

于博士：?動作的豐富性，我覺得目前就是2023年，已經(jīng)過去了，大家也看到了很多提升。這里面比較關(guān)鍵的點，在一開始的時候，大家都是從 stable diffusion 之類的模型初始化，它是一個二級的模型，然后我們給它稍微加一點 temporal attention或者這個 temporal convolution。試圖把它改造成一個視頻模型。那么這個過程中，它對時間的建模其實是比較弱的，所以使得我們看到它都不怎么動，動作的豐富性，這個幅度都比較差。而這個 MAGVIT 系列就是，包括今年出來的其他一些工作都是使用了原生的 3D 建模。那么 3D 建模就是說我們同時去學習時間和空間上的這個變換。那么這樣一來，我們獲得的這個視頻，它的動作幅度就會更大一些。連貫性會更好一些，當然，我們說局部的動作。在更大的范圍內(nèi)，我們怎么能獲得更連貫的，更加豐富的，甚至這個更加合理的動作，可能就要依賴我們中間這個大模型。隨著它的參數(shù)量提高它能力的增強，就像你說的對世界的理解的更深刻了，可能它自己學習出了這個世界的物理規(guī)律，那么它生成出來的內(nèi)容也就是遵循我們?nèi)祟惖某ＷR，看起來就非常合理，我覺得是仍然需要前進一段時間，但是我是相信它的，這可能就是將來我們做多模態(tài)大模型的一條思路，可能語言不是那么必要的，但是我們通過這個原始世界的自然觀察。把這些規(guī)律學出來，這對模型提出了更高的要求，這也是值得未來研究的一個方向。

SenseAI：關(guān)于有一個小細節(jié)，這個論文的后半還也提到這個 super resolution ，您剛才說到其他的論文中，其實也都用到了這個，就我們現(xiàn)在就會在想，那是不是每一個視頻生成的模型都需要用到這個？目前這方面的可探索空間有多大？目前的架構(gòu)是否比較通用，尤其是對 LLM 和 Diffusion 類型，是不是都比較公平？

于博士：?其實歸根結(jié)底需要 super resolution 的原因是我們的原生的那個模型，它輸出的這個分辨率、時長都比較低，所以我們需要為了能夠獲得更好看的效果。在后面再嫁接一個模型。最終來說，當我們能原生模型能夠輸出比較高的分辨率，像現(xiàn)在一些圖像的工作可能就可以了，那么它就不再需要這個 super resolution。當然在現(xiàn)階段，因為視頻是一個這個維度比較高的領(lǐng)域，那么它對效率的要求也更高一些，可能還是需要仍然使用 super resolution 一段時間，然后架構(gòu)上是否通用，目前我們用的架構(gòu)在里面其實是一個 mask 的 transformer。然后做 super resolution，因為它會更快一些。它又不是 Diffusion，它比 Diffusion 更快一些。而常見的diffusion model，他們會用這個 diffusion objective 自己去學一個 super resolution，至少到目前為止，這條 super resolution 上的技術(shù)路線，大家還是沒有很大程度的共享的，我覺得以后可能可以。不過這里面其實有一個問題，就是 super resolution，目前當然大家都 teacher forcing ，就是我用原始的低分辨率視頻和原始的高分辨率視頻去學習，而更好的辦法可能是我用模型就是前一階段模型的輸出，是低分辨率到后面的高分辨率這樣進行學習，這個叫 student forcing，它會使得你這個distribution shift 更小，而就需要對每個模型專門進行 super resolution 的訓練，這個可能通用性就會下降。

SenseAI：?我們對數(shù)據(jù)這塊兒也很感興趣，就是一直以來數(shù)據(jù)的收集和處理對視頻生成來說也很關(guān)鍵，也想了解一下在 Videopoets 里面我們做了怎么樣的選擇工作，我們是否有一些大規(guī)模處理數(shù)據(jù)的方法或者工具？?以及現(xiàn)在數(shù)視頻類的數(shù)據(jù)的短缺，我們有沒有注意觀察到有一類可能對生成效果幫助很大，但是目前還沒有被收集的數(shù)據(jù)類型？

于博士：數(shù)據(jù)的話，現(xiàn)在至少從很多工作來看，這個是對模型非常重要的一個點，但其實我們這個工作主要的關(guān)注點在模型這邊，所以對數(shù)據(jù)處理是比較少的。我們也從其他研究工作中看到，對于數(shù)據(jù)的篩選，整理和標注是這個模型，特別是審美相關(guān)的生成質(zhì)量影響非常大的一個點。

SenseAI：除了數(shù)據(jù)以外，其實這個論文中也提到，對于社會責任和公平上做了一些分析，這個也是非常有遠見的設(shè)計，就是這方面您能講一講具體上怎么做，怎么去平衡的嗎？

于博士：?對這個是我們一些合作者進行了model的社會公平性分析，然后這個有一些非常有意思的現(xiàn)象，就是我們會發(fā)現(xiàn)這個模型的輸出上，當我們?nèi)ミx定一組這個 prompt，它會更偏好這個年輕人，比如說18到35歲。然后男性以及膚色較淺的人種。我們會觀測到這樣的現(xiàn)象，同時會努力去設(shè)計一些 prompt 去使得它最后輸出的分布更接近于真實的分布。但是目前這個研究還比較早期，我們希望這些觀測可以在這個。之后模型迭代的時候，我們從數(shù)據(jù)的角度進行優(yōu)化，使得我們做出模型是更加負責任的，更加就是具有盡可能小的 Bias。

SenseAI：我們也很好奇 VideoPoet 的下一步會在哪些地方持續(xù)做優(yōu)化，包括像多模態(tài)的組合輸入，我們這個 language model 內(nèi)部的結(jié)構(gòu)設(shè)計上會不會還有一些創(chuàng)新，而在性能上，我們希望會在哪些方面持續(xù)做優(yōu)化。

于博士：?確實，這個畢竟我們其實是最早把這個language model style 的 video generation 做出來，其實這個模型還有很大的提升空間。那么language model 給大家?guī)淼南胂罂臻g是很大的，比如說它有很強的 zero shot capability 甚至 in-context learning。那么一個發(fā)展方向就是我能不能進一步去scale這個model，它在預訓練的時候可能并沒有什么 task specific design。而是到 inference 的時候，我給他進行少量的 instruction tuning 或者甚至只是給他收幾個 example，然后教會他進行一些新的任務(wù)。比如說我們可以以非常小的代價讓他學會 video segmentation。那么這說明我們的模型可能本來就是對世界有一個很強的理解了，甚至比較用比較小的代價，讓它能不能教會我這個牛頓定律。這些都是非常有意思的事情，就從科研角度；而從應(yīng)用角度來說，我可以以非常低的代價去做customized generation。也是非常有意思的應(yīng)用。

從性能上的優(yōu)化來說，現(xiàn)在我們這一類模型，包括其他視頻生成模型可能也一樣。最大的 bottleneck 是我們生成的時間的長度。以及在固定時間長度下，我們希望能原生的出盡可能高的 resolution 。那么這些就是回到這個 LLM 的 backbone 上。我們希望它對這個 long context support 能更強，比如說能到幾百K。然后同時效率又不會下降太多，就是在一個合理的 cost 范圍內(nèi)，使得我們能夠支持這個更長的更高分辨率的視頻生成，然后同時它是在 single task 里面把這些東西都學了，那么它會對多模態(tài)的組合內(nèi)容的，邏輯上的合理性都會有很大的提高。

SenseAI：?我們近期其實也看到有確實有一些更多的優(yōu)秀的視頻的生成論文出來，您是否有這種感覺，就視頻生成的文藝復興時期要到了，現(xiàn)有架構(gòu)的這種一些 scaling 的解決方案，在短期是不是還有一些新架構(gòu)顛覆的機會？

于博士：?對我們最近也看到非常多的工作，就是視頻生成領(lǐng)域現(xiàn)在在蓬勃發(fā)展，然后我還是很有信心的，我覺得這個2024年可能這個視頻生成會真的走向應(yīng)用。你說到底是現(xiàn)有架構(gòu)下的 scaling，還是會有新架構(gòu)，我覺得可能再過幾個月，我們也許看還能看到一輪的技術(shù)迭代，我覺得到年底左右的時間，可能會走向成熟。

參考材料

https://magvit.cs.cmu.edu/v2/

https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

小編推薦下載