hao86下載站:值得大家信賴的游戲下載站!

首頁 > 區(qū)塊鏈 > 開創(chuàng)全新通用3D大模型,VAST將3D生成帶入「秒級」時代

開創(chuàng)全新通用3D大模型,VAST將3D生成帶入「秒級」時代

時間:2023-12-21 15:03:08
來源:hao86下載
區(qū)塊鏈

【#區(qū)塊鏈# #開創(chuàng)全新通用3D大模型,VAST將3D生成帶入「秒級」時代#】

原文來源:機(jī)器之心

圖片來源:由無界 AI生成

生成式 AI 在 3D 領(lǐng)域在很長一段時間內(nèi)都在等待自己的「ChatGPT」時刻。

傳統(tǒng) 3D 建模涉及游戲、影視、建筑等多個行業(yè),普遍依賴專業(yè)人員手動操作,生產(chǎn)周期短則幾天,多則以月為單位,單個 3D 模型的創(chuàng)建成本至少需要幾千元。生成式 AI 技術(shù)在 2D 圖像生成領(lǐng)域的成功經(jīng)驗,讓人們看到了 AI 在變革 3D 建模這件事上的潛力。一個萬億美元級別的賽道似乎從此開啟,但當(dāng)前市面上的 3D 生成類的 AI 技術(shù)仍然存在各種不足,大家都在期待出現(xiàn)一個讓自己眼前一亮的產(chǎn)品。

2021 年 1 月初,OpenAI 發(fā)布 DALL?E,并以輸入文字 prompt「一把牛油果形狀的扶手椅」,豐富的形象、清晰的結(jié)構(gòu)標(biāo)志著文字生成圖片的技術(shù)走向成熟。

MIT 科技評價道:「這把牛油果扶手椅可能是 AI 的未來(This avocado armchair could be the future of AI)」

Prompt(提示詞):an armchair in the shape of an avocado. 圖源:OpenAI

2023 年 12 月,機(jī)器之心體驗了 VAST 自研的 3D 大模型 Tripo,當(dāng)經(jīng)典的「牛油果手扶椅」以精致的形態(tài)快速絲滑地在眼前生成,我們立刻意識到,生成式 AI 迎來了又一個里程碑時刻。

Prompt(提示詞):avocado chair. ?圖源 TripoAI

VAST 是誰?

經(jīng)過一番搜索,我們發(fā)現(xiàn),最近走紅的兩項 3D 生成技術(shù) Wonder3D 和 CSD 都與這家公司有關(guān)。

不久前,一個名為 Wonder3D 的開源項目被開發(fā)者發(fā)掘,它能夠在 3 分鐘內(nèi)從單個圖像重建高保真紋理網(wǎng)格。在開源平臺 GitHub 上,這個項目短時間內(nèi)就斬獲了 3.3K Github Star:

體驗鏈接:https://huggingface.co/spaces/flamehaze1115/Wonder3D-demo

與此同時,一項利用圖像擴(kuò)散模型實(shí)現(xiàn) 3D 生成的理論突破成果「CSD 」也引發(fā)了眾人關(guān)注:

VAST 此前僅有的公開亮相是創(chuàng)始人在圖形學(xué)盛會 SIGGRAPH 五十周年慶典中進(jìn)行的 Keynote 演講。通過當(dāng)時的報道可以了解到,VAST 是一家專注于通用 3D 大模型的技術(shù)研發(fā)及產(chǎn)品落地的初創(chuàng)公司。

作為首位在 SIGGRAPH 發(fā)表主題演講的中國創(chuàng)業(yè)者,VAST 創(chuàng)始人宋亞宸提到,VAST 的目標(biāo)是減少制作高質(zhì)量 3D 資產(chǎn)和環(huán)境所需的專業(yè)知識和成本,讓 3D 內(nèi)容生成變成一件更容易的事。

「3D 技術(shù)代表了下一個前沿方向,開啟了沉浸式表達(dá)的新維度,我們相信 AI 可以讓任何人創(chuàng)造出令人驚嘆的 3D 內(nèi)容,且不受制于想象力之外的任何因素?!?/p>

作為一家初創(chuàng)公司,VAST 的創(chuàng)始人為何能夠與業(yè)內(nèi)巨頭英偉達(dá)、索尼、Unity 的掌門人同臺演講?它們又是如何推動了 Wonder3D 和 CSD 這樣的技術(shù)突破?

帶著這份好奇心,機(jī)器之心拜訪了 VAST 在北京的辦公室。

了解過團(tuán)隊情況后,我們發(fā)現(xiàn) VAST 可以說是「臥虎藏龍」:

算法團(tuán)隊成員清一色來自海內(nèi)外的頂尖高校和技術(shù)大廠,具有豐富的人工智能及圖形學(xué)經(jīng)驗。

CTO 梁鼎師從戴瓊海院士,曾擔(dān)任商湯通用視覺和語言大模型發(fā)起人和垂類語言大模型負(fù)責(zé)人,著有論文 40 多篇,引用 7000 次,國內(nèi)專利 100 多項,海外專利 14 項。

首席科學(xué)家曹炎培師從胡事民院士,前騰訊 ARC Lab 和 AI Lab 3D 方向?qū)<?,擁有論?40 多篇,近期在 3D 生成方向的相關(guān)成果包括 Dream3D、DreamAvatar、 Sparse3D、HiFi-123、TGS 等。

還有一位出生于 97 年的青年科學(xué)家郭元晨,他是清華大學(xué)博士生,師從張松海副教授,也是知名 3D 生成開源項目 threestudio 的發(fā)起者、核心貢獻(xiàn)者。該項目已經(jīng)在 GitHub 社區(qū)收獲了 4.4K 星標(biāo),是目前為止功能最完整、使用最廣泛的 3D 生成代碼框架。

threestudio 地址:https://github.com/threestudio-project/threestudio/

隨后,VAST 和機(jī)器之心聊了聊他們正在進(jìn)行的技術(shù)探索。

AI 在 3D 生成領(lǐng)域的壁壘,如何打破?

我們聊到的第一個問題是:在 3D 內(nèi)容的生成上,AI 還面臨著哪些挑戰(zhàn)?

要理解這個問題,首先需要理解 3D 內(nèi)容制作的特殊性。

數(shù)字 3D 內(nèi)容起源于 20 世紀(jì) 60 年代的計算機(jī)圖形學(xué),迄今已衍生出眾多細(xì)分領(lǐng)域。一般來說,完整的 3D 生產(chǎn)管線涵蓋概念設(shè)計、3D 建模、紋理 / 材質(zhì)、動畫和渲染等多個環(huán)節(jié)。

傳統(tǒng)流程中,3D 數(shù)字內(nèi)容的生成均由積累?時間學(xué)習(xí)和?作經(jīng)驗的專業(yè)藝術(shù)家進(jìn)行創(chuàng)作,加?了?量的??經(jīng)驗設(shè)計,且不同藝術(shù)家?作流程不同,沒有絕對統(tǒng)一的標(biāo)準(zhǔn)。對于這些資深的專業(yè) 3D 創(chuàng)作者來說,3D 內(nèi)容生成也是一項非常復(fù)雜且耗時的工作。

此外,3D 數(shù)字內(nèi)容表達(dá)的多樣性,也為 AI 的學(xué)習(xí)過程增添了更多挑戰(zhàn)。多邊形?格、細(xì)分曲?、?骼動畫、頂點(diǎn)動畫、物理模擬動畫,不同的材質(zhì)涉及不同的渲染管線。表達(dá)方式的不統(tǒng)一,導(dǎo)致 3D 內(nèi)容的制作本身比 2D 更具挑戰(zhàn)性。

以我們熟悉的視覺模型和語言模型為例,它們會通過對預(yù)訓(xùn)練數(shù)據(jù)的「學(xué)習(xí)」來摸索規(guī)律,最終展現(xiàn)出一種非常接近「創(chuàng)造」的能力。實(shí)現(xiàn)這種學(xué)習(xí)能力的前提是圖像、視頻、語音、文字均有比較通用的表示形式。

對于現(xiàn)有的生成式大模型來說,3D 數(shù)字內(nèi)容就像是一種很新的「語言」體系。因此,想讓 AI「學(xué)會」生成媲美人類水準(zhǔn)的 3D 模型,同時保證速度,并不是一件容易的事。

已取得階段性突破的研究大多遵循 2D 優(yōu)化路線:利用已有生成模型的 2D 生成能力,通過多視角優(yōu)化將生成維度提升到三維。

斬獲了 ECCV 2020 最佳論文榮譽(yù)提名的 NeRF(Neural Radiance Fields,神經(jīng)輻射場渲染)在多視圖重建靜態(tài)三維場景方面獲得了重要進(jìn)展。這項基礎(chǔ)理論的突破開啟了新的一波 3D x AI 熱潮,在此基礎(chǔ)上,有研究者引入了擅長文本到圖像生成的擴(kuò)散模型,比如 Google 去年發(fā)布的 DreamFusion 算法,提出采用「Score Distillation Sampling」實(shí)現(xiàn)從文本到 3D 的生成。DreamFusion 的優(yōu)點(diǎn)是幾乎不需要事先訓(xùn)練,實(shí)現(xiàn)了在沒有 3D 數(shù)據(jù)的情況下生成物體 3D 表示,缺點(diǎn)是速度慢(長達(dá)數(shù)個小時)。

OpenAI 在去年同期發(fā)布的 Point-E 則采用了在 3D 數(shù)據(jù)集訓(xùn)練的方案,還強(qiáng)調(diào)了「可以用單塊 NVIDIA V100 GPU 在一到兩分鐘內(nèi)生成 3D 模型」,但它在從文字到 3D 的轉(zhuǎn)換過程中偶爾還是無法理解文本敘述的內(nèi)容,導(dǎo)致生成的形狀與文本提示不匹配,而且生成結(jié)果的精細(xì)度不足。

總之,沿襲此路線的后續(xù)研究很多,但始終沒有一個方案能兼顧模型的生成質(zhì)量、速度、多樣性和可控性。

「通用 3D 大模型」的探索之路

知名計算機(jī)科學(xué)家 Rich Sutton 教授曾在 2019 年的《The Bitter Lesson》文章中給出過一個論斷:對于 AI 模型的訓(xùn)練來說,要在短期內(nèi)有所提升,研究人員可以利用專門領(lǐng)域的人類知識。但如果想要長期地獲得提升,更好地利用計算能力才是王道。

正如早期的 CV 領(lǐng)域,普遍認(rèn)為只要設(shè)計出更好的特征描述就可以持續(xù)進(jìn)步,但后來大獲成功的深度學(xué)習(xí)方法僅使用卷積或注意力機(jī)制就能得到更好的效果。其中 ImageNet 等海量圖像數(shù)據(jù)集、GPU 提供的強(qiáng)大計算能力,以及 CNN、Transformer 等高可擴(kuò)展性的模型架構(gòu)起到了至關(guān)重要的作用。

VAST 認(rèn)為,AI 要想在 3D 生成領(lǐng)域獲得長足發(fā)展,同樣需要跳出對人類知識的依賴,憑借更龐大的數(shù)據(jù)和更多的計算「學(xué)習(xí)」一種「通用方法」。

具體到 3D 領(lǐng)域,讓 AI 突破瓶頸獲得「通用能力」的方法論又是什么呢?

在 VAST 看來,這個目標(biāo)可以從三個方向的工作入手:表示、模型和數(shù)據(jù)。

充分利?算?的關(guān)鍵,最重要正是在于找到合適的「表示」。?如 3D 內(nèi)容制作中常用三??格來模擬復(fù)雜物體的表面,這種表示對 GPU 渲染算?友好,但是對深度學(xué)習(xí)算法來說并不夠友好。

VAST 希望尋找一種更加靈活、利于計算的 3D 統(tǒng)一表示,同時兼容現(xiàn)有的圖形管線。

在最近的論文《SC-GS: Sparse-Controlled Gaussian Splatting for Editable Dynamic Scenes》,他們提出了一種新的動態(tài)場景表示方法,通過將場景運(yùn)動和外觀分解為稀疏控制點(diǎn)和稠密的 3D Gaussians,顯著提高了動態(tài)場景的可編輯性和渲染質(zhì)量,在新視角合成和保持外觀的運(yùn)動編輯方面均顯著優(yōu)于現(xiàn)有方法。

另外一項研究《Triplane Meets Gaussian Splatting: Fast and Generalizable Single-View 3D Reconstruction with Transformers》則探索了基于三平面(triplane)和高斯?jié)姙R(3D Gaussian Splatting)融合的 3D 表示,利用高度可擴(kuò)展的 Transformer 架構(gòu)即可實(shí)現(xiàn) 2 秒內(nèi)的高質(zhì)量圖生 3D。

此外,探索「3D tokenizer」也是一種不錯的思路。此前的一項研究表明,在相同的訓(xùn)練數(shù)據(jù)、模型大小和訓(xùn)練預(yù)算條件下,如果利用良好的視覺 tokenizer,掩碼語言模型在圖像和視頻基準(zhǔn)的生成保真度和效率方面同樣可達(dá)到與擴(kuò)散模型相同的水準(zhǔn)。對于 3D 生成任務(wù)來說,將 3D 表示轉(zhuǎn)化為與語言 token 相近形式的 token 表示,或許有助于將現(xiàn)有的理解和生成大模型應(yīng)用在 3D 領(lǐng)域。

「模型」層面,VAST 近期的多項研究都探索了如何充分利用大模型在其他模態(tài)下的先驗、設(shè)計準(zhǔn)則、訓(xùn)練經(jīng)驗,以提升模型對 3D 數(shù)據(jù)的學(xué)習(xí)能力。

比如近段時間爆火的 Wonder3D 就創(chuàng)新地提出了復(fù)用強(qiáng)大的 2D 圖像生成模型同步生成多視角一致法向和 RGB 圖,實(shí)現(xiàn)了 2 分鐘高質(zhì)量圖生 3D。他們利用多視角法向圖表示 3D 幾何信息,從而可以有效利用大量 2D 數(shù)據(jù)先驗。

此外,VAST 還在最新的一項研究「UniDream」中提出了可輸出具有高質(zhì)量 PBR 材質(zhì)、可重光照 3D 模型的多階段文生 3D 框架。這一框架分為三個組成部分:1. 復(fù)用強(qiáng)大的 2D 圖像生成模型,以文字為條件,同步生成解耦的多視角一致的法向和基礎(chǔ)色;2. 結(jié)合在大量 3D 數(shù)據(jù)訓(xùn)練的可泛化 3D 重建模型,從多視角圖片生成基礎(chǔ) 3D 先驗;3. 利用材質(zhì)解耦的 SDS 優(yōu)化方法,得到最終具有高質(zhì)量幾何和 PBR 材質(zhì)的 3D 模型。

「數(shù)據(jù)」層面的挑戰(zhàn)同樣不容忽視。由于優(yōu)質(zhì)、原生、多樣化的 3D 數(shù)據(jù)集資源的稀缺,模型的最終表現(xiàn)受限,導(dǎo)致可以生成的 3D 內(nèi)容有限,泛化能力不足。這也是為什么一部分研究者嘗試過直接用 3D 數(shù)據(jù)集進(jìn)行訓(xùn)練和微調(diào)模型,但都沒能取得太理想的效果的原因。

針對這個問題,VAST 自 2023 年初成立以來一直不斷積累在 3D 數(shù)據(jù)上的優(yōu)勢,目前已擁有全世界最大的 3D 高質(zhì)量原生數(shù)據(jù)庫(千萬級別)。

基于千萬 3D 原生數(shù)據(jù)訓(xùn)練的大模型

已有落地產(chǎn)品

經(jīng)歷了近一年的探索,VAST 在今年 12 月已經(jīng)完成了通用 3D 大模型 Tripo 的研發(fā)。



VASTAI


,贊 11
Tripo AI Fantasy: Launched,與藝術(shù)家Rui Huang共創(chuàng)


Tripo 基于海量 3D 高質(zhì)量原生數(shù)據(jù)庫訓(xùn)練,是一個數(shù)十億參數(shù)級別的 3D 大模型。得益于 VAST 在「通用 3D 大模型」路線上的技術(shù)探索,Tripo 在生成的質(zhì)量、速度、成功率上行業(yè)領(lǐng)先。目前,已經(jīng)實(shí)現(xiàn) 8 秒鐘生成帶紋理 3D 網(wǎng)格模型,可以進(jìn)入傳統(tǒng)管線進(jìn)行二次編輯和調(diào)整。在此基礎(chǔ)上,可以再用5分鐘的時間進(jìn)行優(yōu)化,優(yōu)化后的 3D 模型可以接近人類手工制作的 3D 模型質(zhì)量,成功率超過 95%。


Tripo 也已經(jīng)在 12 月 21 日正式上線,目前支持「文生 3D」和「圖生 3D」兩種能力。


前往 VAST 官網(wǎng)免費(fèi)體驗?Tripo 3D 生成能力:www.tripo3d.ai


我們可以觀察到, Tripo 有著較強(qiáng)的泛化能力,不管是寫實(shí)、風(fēng)格化任務(wù),還是結(jié)構(gòu)復(fù)雜的幻想生物,也能在短時間內(nèi)完成,展現(xiàn)出了在 3D 創(chuàng)意內(nèi)容方面的巨大潛力。





隨著對高質(zhì)量數(shù)據(jù)集的更深入利用和算法的不斷進(jìn)步,Tripo 未來有望在極短時間內(nèi)創(chuàng)造出質(zhì)量媲美人工建模水準(zhǔn)的作品。


3D 生成,何時迎來「ChatGPT 時刻」?


在與 VAST 技術(shù)團(tuán)隊的交流中,我們發(fā)現(xiàn),在領(lǐng)先業(yè)界進(jìn)行通用 3D 大模型的探索之外,這家公司在產(chǎn)業(yè)化探索上同樣做到了「快人一步」。


不到一年時間內(nèi),VAST 已經(jīng)搭建起了針對國內(nèi)外 B 端和 C 端用戶的端到端產(chǎn)品矩陣,并與數(shù)十家海內(nèi)外游戲、動畫、工業(yè)、云計算等行業(yè)領(lǐng)軍企業(yè)在 3D 數(shù)據(jù)及 3D 內(nèi)容生成等領(lǐng)域建立了戰(zhàn)略合作關(guān)系。


放眼未來,VAST 的「野心」不止于此。成立之初,這個團(tuán)隊已經(jīng)定下目標(biāo):讓任何人都可以成為「超級創(chuàng)作者」,充分實(shí)現(xiàn)自己的創(chuàng)意。


需要承認(rèn)的是,目前的 AIGC 3D 技術(shù)距離目標(biāo)還需要一段探索期。但在這次技術(shù)浪潮中,VAST 已經(jīng)成為了從 0 到 1 的推動者之一。下一步,VAST 將攻克來自真實(shí)世界的更多難題。


在與 VAST 團(tuán)隊的交流中,我們充分感受到了這種堅定的技術(shù)熱情:


「VAST 相信,當(dāng)通用 3D 大模型的能力逐漸增強(qiáng),用戶進(jìn)行 3D 創(chuàng)作的門檻將不斷降低,真正的 3D 內(nèi)容大爆發(fā)時代必然會到來,這就是屬于 VAST 這群年輕人的『OnePiece』?!笴EO 宋亞宸表示。


目前,VAST 還在構(gòu)建一個交互式 3D 內(nèi)容平臺,希望為全世界的專業(yè)人士和業(yè)余愛好者打造一個共享創(chuàng)作、發(fā)現(xiàn)作品和訪問定制 3D 資產(chǎn)的交流中心。


或許在不久之后,3D 賽道也會出現(xiàn)像「ChatGPT」這樣的現(xiàn)象級產(chǎn)品,而 VAST 這家年輕的中國初創(chuàng)公司格外值得期待。

小編推薦下載

相關(guān)文章

更多>>

同類軟件下載