hao86下載站:值得大家信賴的游戲下載站!

首頁 > 區(qū)塊鏈 > 專訪|VideoPoet核心作者:揭秘谷歌革命性視頻生成技術(shù)

專訪|VideoPoet核心作者:揭秘谷歌革命性視頻生成技術(shù)

時間:2024-01-05 09:38:00
來源:hao86下載
區(qū)塊鏈

【#區(qū)塊鏈# #專訪|VideoPoet核心作者:揭秘谷歌革命性視頻生成技術(shù)#】

原文來源:深思SenseAI

圖片來源:由無界 AI生成

在全球新一代 AI 獨(dú)角獸的競賽中,視頻生成技術(shù)作為最具潛力的領(lǐng)域之一備受關(guān)注。最近,Google 推出了名為 VideoPoet 的大型語言模型,它不僅能夠從文本和圖像生成視頻,還具備風(fēng)格遷移、視頻聲音頻等功能,其動作生成的豐富性和流暢度令人印象深刻,被廣泛認(rèn)為是革命性的 zero-shot 視頻生成工具。本期專訪特邀 VideoPoet 的核心作者于力軍同學(xué)和 Google 機(jī)器學(xué)習(xí)工程師 Yishuai,與 SenseAI 一同進(jìn)行技術(shù)思考與應(yīng)用探索。

視頻生成的技術(shù)層面是在現(xiàn)有的技術(shù)框架下的規(guī)?;€是會有更加創(chuàng)新的框架出現(xiàn),目前是未知的,唯一確定的是,今年的視頻生成技術(shù)還會有新一輪的迭代,然后走向成熟,最終促使應(yīng)用層的又一輪爆發(fā)。

視頻生成的應(yīng)用層面,是短視頻先行,消費(fèi)側(cè)需求時長更短,質(zhì)量要求更靈活;同時供給側(cè),受制于現(xiàn)有算法架構(gòu)和算力消耗,ROI 還未商業(yè)可行;內(nèi)容品類上,看好動漫動畫,自然風(fēng)光和教育方向。

未來視頻生成是混合動態(tài)的:拍攝不會被取代,依然是重要素材的來源,但生成是很好的補(bǔ)充、延展、想象具像化。

模型即產(chǎn)品:AI應(yīng)該在人類創(chuàng)作和具像化過程中的每一步去適應(yīng)人類,輔助人類,這個前提就是模型具備了多模態(tài)輸入能力和下游生成編輯能力的最小單元,和模型的交互是極簡和動態(tài)的,在任意時間維度和生成狀態(tài)中,都可以靈活的輸入和編輯,模型會自己去理解和生成。


01 背景與研究方向


在本期播客中的嘉賓于力軍,目前是卡內(nèi)基梅隆大學(xué)的人工智能領(lǐng)域的博士生。于博士的學(xué)術(shù)之旅始于北京大學(xué),專業(yè)為計(jì)算機(jī)科學(xué)和經(jīng)濟(jì)學(xué)。他在 CMU 的研究主要是與?Alexander?Hauptmann?博士合作,聚焦于多媒體的研究。他們的團(tuán)隊(duì)從多媒體檢索起步,逐漸過渡到視頻理解,并最終專注于視頻生成技術(shù)的創(chuàng)新。于博士特別致力于多模態(tài)大型模型的研究,重點(diǎn)是多任務(wù)生成的視角。此外,他與谷歌有著長期的合作關(guān)系,他在谷歌的導(dǎo)師是Jiang Lu老師,他是CMU研究組的畢業(yè)生,目前在谷歌擔(dān)任研究科學(xué)家,專注于視頻生成領(lǐng)域。他們在谷歌的很多重要研究都是圍繞這一主題展開的。


02 技術(shù)架構(gòu) Q&A


SenseAI:基于LLM的視頻生成模型會不會在長期比Diffusion 類型的模型更具潛力和優(yōu)勢?LLM的架構(gòu)和 Diffusion 架構(gòu)圖片和視頻生成,未來是否會到一個趨勢,就是各自生成的質(zhì)量都非常接近,但是 LLM 架構(gòu)在視頻內(nèi)容和邏輯上會更突出。還是會有別的趨勢?


于博士:這是一個很好的問題,剛才問題當(dāng)中所拋出的這些觀點(diǎn),我大體上是同意。因?yàn)楝F(xiàn)在在語言領(lǐng)域LLM 發(fā)展的非常好,它有這個很強(qiáng)的邏輯能力,推理能力,然后同時,現(xiàn)在又具有這個非常好的多模態(tài)泛化能力,那么我是相信使用 LLM 作為 backbone 去做這個視頻生成,在各方面的擴(kuò)展性,這個邏輯一致性上會比將來的 Diffusion 模型更好。當(dāng)然這是建立在我們現(xiàn)在的觀測上,也許有一天這個 Diffusion Model 也會產(chǎn)生一定的進(jìn)步。但視覺質(zhì)量上,將來可能是會逐漸飽和的,現(xiàn)在我們也看到一些這個產(chǎn)品出來,已經(jīng)達(dá)到了一定程度上的可能性。而將來我們可能更多是在內(nèi)容上去進(jìn)行推進(jìn),然后其實(shí)這兩個技術(shù)路線也不是非此即彼的,我們也可以這個結(jié)合 LLM作為這個Latent Model(潛在模型)去利用它的這個多模態(tài)的zero shot和邏輯性。最后,我們再結(jié)合上一定的 Diffusion 的高質(zhì)量的能力去做最后一步,從Latent space回到Pixel space的過程。將來也可能是一個混合的架構(gòu)。

SenseAI:介紹一下VideoPoet獨(dú)特的架構(gòu)設(shè)計(jì)


于博士:它是概念上非常簡單的模型。我們就是利用了一個大語言模型結(jié)構(gòu)的 Causal 的 Transformer。然后這個 Transformer,完全是在 Token Space進(jìn)行操作,那么我們的 Token,包括圖像和視頻 Token,然后也包括音頻 Token,同時還包括這個文本的這個Embedding。那么我們怎么把這些模態(tài)都統(tǒng)一到這個 Token space,我們使用了每一個模態(tài)特有的 Tokenizer 。這里面圖片和視頻,我們使用了我之前設(shè)計(jì)的 MAGVIT-v2 Tokenizer。我們可以把圖片和任意長度的視頻 Tokenize 到一個空間里,然后同時它有很高的重建的效果,所以保證了我們 Video 的生成質(zhì)量。然后音頻部分,我們使用的是 SoundStream 這是一個已經(jīng)成熟的 Tokenizer。然后文本部分,我們就是使用已有的 T5 去 Embedding,這些模態(tài)混合在一塊兒,然后我們進(jìn)行大量的多模態(tài),多任務(wù)的預(yù)訓(xùn)練。使得他能夠進(jìn)行文生視頻,圖生視頻、視頻生音頻,風(fēng)格轉(zhuǎn)換以及視頻編輯等等其他各種應(yīng)用。

(參考:https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html)

SenseAI:把這個 LLM 的基于一個多模態(tài)詞匯表進(jìn)行訓(xùn)練,然后能夠生成就您講的高保真、長時間,而且動作的復(fù)雜度很高的這類視頻。我們想了解在里面語音模型它提供怎么樣價值?我們對語言模型的選擇會有很高要求嗎?

于博士:?其實(shí)在這個里面,language model是比較重要的一個模型。當(dāng)然我們說這些 tokenizer 也很重要,那 tokenizer 其實(shí)對每個模態(tài)進(jìn)行一定比例的壓縮,然后使得 language model 更好的學(xué)習(xí)。而最后,我們把所有的模態(tài)都放上 token ,然后這里面的每一個生成任務(wù),都是由這個 language model 它在進(jìn)行學(xué)習(xí)的,然后它在大規(guī)模的預(yù)訓(xùn)練之后,可以進(jìn)行很好的這個 generalization 以及 transfer。對于model 的選擇有很高的要求,目前來看,我們需要不小的參數(shù)量來放在這個 language model 里面,使得它才能學(xué)習(xí)到我們目前展現(xiàn)出來這些能力。但是你說如果具體到這個LLaMA、 GPT 還是 PaML 或者 Gemini 這種級別的 architecture comparison,我覺得目前可能不會有那么大的影響。它是一個 Causal Language Model這件事很重要。

SenseAI:這樣也可以保證或是幫助我們的模型,隨著 backbone 的進(jìn)化而不斷進(jìn)化對嗎?

于博士:?對的,我們可以始終就是利用 language space 最新的這個研究來提升我們視頻生成以及多模態(tài)的生成質(zhì)量。

SenseAI:明白,因?yàn)榍懊婺阋呀?jīng)提到關(guān)于這個MAGVIT 的 tokenizer 的使用了,所以我們想了解一下,對于這個 tokenizer 的選擇上,我們其實(shí)很關(guān)注它的哪些性能,它對穩(wěn)我們這個視頻生成的穩(wěn)定性上都提供怎么樣的幫助,未來,我們可能還會嘗試一些其他的怎么樣的一些 tokenizer?

于博士:?對 tokenizer 其實(shí)是以 transformer 作為backbone的,就是以 language model 的視頻生成模型里面非常重要的一個模塊,我們很早就開始做這個系列了,大概去年夏天的時候。那個時候最早我們做了一版這個 3D tokenizer,當(dāng)時是市面上最好的。然后我們基于這個 tokenizer 試圖去 scale up這個事情, transformer 模型做到一定程度之后,我們就會發(fā)現(xiàn)它仍然被這個tokenizer bottleneck。

所以今年這個夏天左右的時候,我們就開始了這個 MAGVIT-V2 的tokenizer的研究,主要的目標(biāo)有兩個,一個是我們希望大幅提升這個視頻的視覺的質(zhì)量。同時,我們也希望能夠盡可能利用更多的更大的詞表。這是因?yàn)橹暗囊曈X tokenizer,通常它只有 1000 到 8000的詞表大小。對于 language model 來說,這其實(shí)是非常小的,不太好發(fā)揮出它現(xiàn)在這么大規(guī)模參數(shù)的能力。而我們常見的語言模型,通常在 200K 左右,那么我們在 MAGVIT-V2 里面通過一個創(chuàng)新的quantization 辦法,使得我們的詞表也可以 scale 到200K 甚至更大。然后同時我們在 MAGVIT-V2 里面進(jìn)行了一個改動,就是我們不再用這個純 3D的model,我們已經(jīng)發(fā)現(xiàn)它比 2D 要很好很多,但是其實(shí)比單純的這個 3D modeling 更好的一個變種是causal 3D modeling, 就是我們的結(jié)合它視頻在時間軸上的這個自然屬性,永遠(yuǎn)只依賴前面的幀。然后這樣的話使得我們第一幀就是單獨(dú)的,使得它可以做圖片和視頻的 joint tokenization。同時,它可以做視頻的無限長的 tokenization,然后這個也在結(jié)合causal LLM的時候,使得我們對后面的token預(yù)測要簡單很多,因?yàn)樗肋h(yuǎn)是一個單向的dependency,

在未來的話,tokenizer 我覺得還有很大的提升空間,因?yàn)槟壳皝砜矗匀皇且粋€很小的模型,只有幾百 million 的參數(shù),相比于我們的這個 VideoPoet的 Transformer 來說是非常小的,然后在 scalability上它可能仍然是一個 bottleneck。然后我們會去探索如何把這個模型做大?如何去修改其中目前的一些訓(xùn)練的目標(biāo),比如說它仍然設(shè)計(jì)了一個GAN loss,沒有那么穩(wěn)定,那么有沒有可能用 diffusion 或者consistency 進(jìn)行替代,這也是值得一個研究的課題。

(參考 https://magvit.cs.cmu.edu/v2/)

SenseAI:以后未來任何使用圖片做圖形encoding的地方都能用上這個 tokenizer,如果是這樣情況下,那么 diffusion 類型的模型有沒有可能也能先用MAGVIT 的 tokenizer。有沒有這類的可能?

于博士:?這是非常好的問題,我們是希望未來需要使用圖片 encoder 的地方都可以使用它。然后同時我們在進(jìn)行 MAGVIT-V2 設(shè)計(jì)的時候也進(jìn)行了多方面的評估。首先,我們在標(biāo)準(zhǔn)的這個 benchmark 上獲得了一定效果;然后同時我們也使用它單純進(jìn)行了video compression,我們發(fā)現(xiàn)它在相同 bandwidth下,它的 compression quality 就是在你重建出來之后,是比目前廠商用的 H265 要更好的。是和下一代的算法叫 H266VVC,是可以打一個平手的。當(dāng)然目前的 tokenizer,在壓縮和解壓縮過程中,它需要用到 GPU 或者 CPU 可能 cost 還會更大一點(diǎn)。然后第三點(diǎn)就是我們也進(jìn)行了這個視頻理解方面的這個評測,發(fā)現(xiàn)這個 tokenizer 的 token對于自監(jiān)督學(xué)習(xí),然后用于動作識別等等的應(yīng)用也是有幫助的。然后涉及到 diffusion model,這也是一個非常好的問題。最近也有另一個工作,它就是使用了MAGVIT-V2 的 encoder 和 decoder,然后在這個enorder 和 decoder的這個 latent space里面做了一個 latent diffusion,那么 diffusion model一樣可以用我們的 tokenizer 或者更準(zhǔn)確的說,我們這一類tokenizer 目前已經(jīng)測試過幾個 transformer,全都是有非常好的性能。

SenseAI:關(guān)于這個動作的豐富性和合理性,一直是這個視頻生成的一個問題。我們跟其他團(tuán)隊(duì)交流過程中,大家也會提到類似這個世界模型的這種概念就是對環(huán)境物體交互基礎(chǔ)理解,可以解決這個問題,您對這方面怎么看,在這個方面上有沒有持續(xù)的優(yōu)化。

于博士:?動作的豐富性,我覺得目前就是2023年,已經(jīng)過去了,大家也看到了很多提升。這里面比較關(guān)鍵的點(diǎn),在一開始的時候,大家都是從 stable diffusion 之類的模型初始化,它是一個二級的模型,然后我們給它稍微加一點(diǎn) temporal attention或者這個 temporal convolution。試圖把它改造成一個視頻模型。那么這個過程中,它對時間的建模其實(shí)是比較弱的,所以使得我們看到它都不怎么動,動作的豐富性,這個幅度都比較差。而這個 MAGVIT 系列就是,包括今年出來的其他一些工作都是使用了原生的 3D 建模。那么 3D 建模就是說我們同時去學(xué)習(xí)時間和空間上的這個變換。那么這樣一來,我們獲得的這個視頻,它的動作幅度就會更大一些。連貫性會更好一些,當(dāng)然,我們說局部的動作。在更大的范圍內(nèi),我們怎么能獲得更連貫的,更加豐富的,甚至這個更加合理的動作,可能就要依賴我們中間這個大模型。隨著它的參數(shù)量提高它能力的增強(qiáng),就像你說的對世界的理解的更深刻了,可能它自己學(xué)習(xí)出了這個世界的物理規(guī)律,那么它生成出來的內(nèi)容也就是遵循我們?nèi)祟惖某WR,看起來就非常合理,我覺得是仍然需要前進(jìn)一段時間,但是我是相信它的,這可能就是將來我們做多模態(tài)大模型的一條思路,可能語言不是那么必要的,但是我們通過這個原始世界的自然觀察。把這些規(guī)律學(xué)出來,這對模型提出了更高的要求,這也是值得未來研究的一個方向。

SenseAI:關(guān)于有一個小細(xì)節(jié),這個論文的后半還也提到這個 super resolution ,您剛才說到其他的論文中,其實(shí)也都用到了這個,就我們現(xiàn)在就會在想,那是不是每一個視頻生成的模型都需要用到這個?目前這方面的可探索空間有多大?目前的架構(gòu)是否比較通用,尤其是對 LLM 和 Diffusion 類型,是不是都比較公平?

于博士:?其實(shí)歸根結(jié)底需要 super resolution 的原因是我們的原生的那個模型,它輸出的這個分辨率、時長都比較低,所以我們需要為了能夠獲得更好看的效果。在后面再嫁接一個模型。最終來說,當(dāng)我們能原生模型能夠輸出比較高的分辨率,像現(xiàn)在一些圖像的工作可能就可以了,那么它就不再需要這個 super resolution。當(dāng)然在現(xiàn)階段,因?yàn)橐曨l是一個這個維度比較高的領(lǐng)域,那么它對效率的要求也更高一些,可能還是需要仍然使用 super resolution 一段時間,然后架構(gòu)上是否通用,目前我們用的架構(gòu)在里面其實(shí)是一個 mask 的 transformer。然后做 super resolution,因?yàn)樗鼤煲恍?。它又不?Diffusion, 它比 Diffusion 更快一些。而常見的diffusion model,他們會用這個 diffusion objective 自己去學(xué)一個 super resolution,至少到目前為止,這條 super resolution 上的技術(shù)路線,大家還是沒有很大程度的共享的,我覺得以后可能可以。不過這里面其實(shí)有一個問題,就是 super resolution,目前當(dāng)然大家都 teacher forcing ,就是我用原始的低分辨率視頻和原始的高分辨率視頻去學(xué)習(xí),而更好的辦法可能是我用模型就是前一階段模型的輸出,是低分辨率到后面的高分辨率這樣進(jìn)行學(xué)習(xí),這個叫 student forcing,它會使得你這個distribution shift 更小,而就需要對每個模型專門進(jìn)行 super resolution 的訓(xùn)練,這個可能通用性就會下降。

SenseAI:?我們對數(shù)據(jù)這塊兒也很感興趣,就是一直以來數(shù)據(jù)的收集和處理對視頻生成來說也很關(guān)鍵,也想了解一下在 Videopoets 里面我們做了怎么樣的選擇工作,我們是否有一些大規(guī)模處理數(shù)據(jù)的方法或者工具??以及現(xiàn)在數(shù)視頻類的數(shù)據(jù)的短缺,我們有沒有注意觀察到有一類可能對生成效果幫助很大,但是目前還沒有被收集的數(shù)據(jù)類型?

于博士:數(shù)據(jù)的話,現(xiàn)在至少從很多工作來看,這個是對模型非常重要的一個點(diǎn),但其實(shí)我們這個工作主要的關(guān)注點(diǎn)在模型這邊,所以對數(shù)據(jù)處理是比較少的。我們也從其他研究工作中看到,對于數(shù)據(jù)的篩選,整理和標(biāo)注是這個模型,特別是審美相關(guān)的生成質(zhì)量影響非常大的一個點(diǎn)。

SenseAI:除了數(shù)據(jù)以外,其實(shí)這個論文中也提到,對于社會責(zé)任和公平上做了一些分析,這個也是非常有遠(yuǎn)見的設(shè)計(jì),就是這方面您能講一講具體上怎么做,怎么去平衡的嗎?

于博士:?對這個是我們一些合作者進(jìn)行了model的社會公平性分析,然后這個有一些非常有意思的現(xiàn)象,就是我們會發(fā)現(xiàn)這個模型的輸出上,當(dāng)我們?nèi)ミx定一組這個 prompt,它會更偏好這個年輕人,比如說18到35歲。然后男性以及膚色較淺的人種。我們會觀測到這樣的現(xiàn)象,同時會努力去設(shè)計(jì)一些 prompt 去使得它最后輸出的分布更接近于真實(shí)的分布。但是目前這個研究還比較早期,我們希望這些觀測可以在這個。之后模型迭代的時候,我們從數(shù)據(jù)的角度進(jìn)行優(yōu)化,使得我們做出模型是更加負(fù)責(zé)任的,更加就是具有盡可能小的 Bias。

SenseAI:我們也很好奇 VideoPoet 的下一步會在哪些地方持續(xù)做優(yōu)化,包括像多模態(tài)的組合輸入,我們這個 language model 內(nèi)部的結(jié)構(gòu)設(shè)計(jì)上會不會還有一些創(chuàng)新,而在性能上,我們希望會在哪些方面持續(xù)做優(yōu)化。

于博士:?確實(shí),這個畢竟我們其實(shí)是最早把這個language model style 的 video generation 做出來,其實(shí)這個模型還有很大的提升空間。那么language model 給大家?guī)淼南胂罂臻g是很大的,比如說它有很強(qiáng)的 zero shot capability 甚至 in-context learning。那么一個發(fā)展方向就是我能不能進(jìn)一步去scale這個model,它在預(yù)訓(xùn)練的時候可能并沒有什么 task specific design。而是到 inference 的時候,我給他進(jìn)行少量的 instruction tuning 或者甚至只是給他收幾個 example,然后教會他進(jìn)行一些新的任務(wù)。比如說我們可以以非常小的代價讓他學(xué)會 video segmentation。那么這說明我們的模型可能本來就是對世界有一個很強(qiáng)的理解了,甚至比較用比較小的代價,讓它能不能教會我這個牛頓定律。這些都是非常有意思的事情,就從科研角度;而從應(yīng)用角度來說,我可以以非常低的代價去做customized generation。也是非常有意思的應(yīng)用。

從性能上的優(yōu)化來說,現(xiàn)在我們這一類模型,包括其他視頻生成模型可能也一樣。最大的 bottleneck 是我們生成的時間的長度。以及在固定時間長度下,我們希望能原生的出盡可能高的 resolution 。那么這些就是回到這個 LLM 的 backbone 上。我們希望它對這個 long context support 能更強(qiáng),比如說能到幾百K。然后同時效率又不會下降太多,就是在一個合理的 cost 范圍內(nèi),使得我們能夠支持這個更長的更高分辨率的視頻生成,然后同時它是在 single task 里面把這些東西都學(xué)了,那么它會對多模態(tài)的組合內(nèi)容的,邏輯上的合理性都會有很大的提高。

SenseAI:?我們近期其實(shí)也看到有確實(shí)有一些更多的優(yōu)秀的視頻的生成論文出來,您是否有這種感覺,就視頻生成的文藝復(fù)興時期要到了,現(xiàn)有架構(gòu)的這種一些 scaling 的解決方案,在短期是不是還有一些新架構(gòu)顛覆的機(jī)會?

于博士:?對我們最近也看到非常多的工作,就是視頻生成領(lǐng)域現(xiàn)在在蓬勃發(fā)展,然后我還是很有信心的,我覺得這個2024年可能這個視頻生成會真的走向應(yīng)用。你說到底是現(xiàn)有架構(gòu)下的 scaling,還是會有新架構(gòu),我覺得可能再過幾個月,我們也許看還能看到一輪的技術(shù)迭代,我覺得到年底左右的時間,可能會走向成熟。

參考材料

https://magvit.cs.cmu.edu/v2/

https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

小編推薦下載

相關(guān)文章

更多>>

資訊排行

同類軟件下載