首頁 > 區(qū)塊鏈 > 小紅書開源「InstantID」效果炸裂，被Yann LeCun點贊，迅速躥上Github熱榜

小紅書開源「InstantID」效果炸裂，被Yann LeCun點贊，迅速躥上Github熱榜

時間：2024-02-02 09:40:28

來源：hao86下載

區(qū)塊鏈

【#區(qū)塊鏈# #小紅書開源「InstantID」效果炸裂，被Yann LeCun點贊，迅速躥上Github熱榜#】

文章來源：機器之心

圖片來源：由無界AI生成

最近，有一群來自小紅書的 95 后神秘團隊，自稱 InstantX，搞了個大動作 —— 開源「InstantID」項目。

InstantID 憑借著高質量的圖像生成能力，在開源界掀起了一股熱潮：不僅獲得了眾多技術大佬的點贊，更是在 GitHub 熱榜上迅速飆升，成為焦點。

這個「出片神器」，讓用戶只需上傳一張照片，就能輕松定制出多種風格的 AI 寫真。

對，你沒看錯。如圖左側所示，與之前爆火的妙鴨相機至少需要上傳 20 張照片不同的是，InstantID 只需一張自拍，不依賴模型訓練，不需要等待，瞬間變身。

無論是古典油畫的優(yōu)雅，炫酷的賽博朋克，或是 3D 雕像的立體感，只要是你喜歡的風格，InstantID 都能輕松駕馭。

它不僅風格多樣，還能在保持人物面部高保真的同時，無需模型訓練，實現(xiàn)秒級出圖，效率大幅提升。

InstantID 目前位列 Hugging Face Space Trending 榜首，許多小伙伴玩得不亦樂乎～

比如，把馬斯克送上了火星。

讓蒙娜麗莎拍「櫻花寫真」，微笑依舊很神秘。

甚至可以讓語文課本中的杜甫從二維變三維，穿越到現(xiàn)代變身「帥大叔」。

圖靈獎得主 Yann LeCun，化身多種動漫人物，你猜出了幾個角色？

就連 Yann LeCun 本人也點贊轉發(fā)，調侃自己的「鋼鐵俠」衣服在哪里。

在個性化圖像合成領域，實現(xiàn)強烈風格化寫真的同時保持面部高保真度，一直是個挑戰(zhàn)。

從效果上看，InstantID 做到了。那它背后運用了哪些方法，有什么獨到之處嗎？

回顧過去，盡管 Textual Inversion、 DreamBooth 和 LoRAs 等技術已經取得了重大進展。但它們在實際應用中仍受限于高存儲需求、耗時的微調過程以及對多張參考圖像的依賴。相比之下，現(xiàn)有基于 ID 嵌入的方法雖然只需一次前向推理，但也面臨不小挑戰(zhàn)：要么需要對大量模型參數(shù)進行廣泛的微調，要么與社區(qū)預訓練模型不兼容，要么無法保持高真實性。

InstantID 的出現(xiàn)，打破了這些局限。小紅書 InstantX 團隊公開了論文《 InstantID: Zero-shot Identity-Preserving Generation in Seconds 》和推理代碼，他們表示：InstantID 巧妙地避免了對文生圖模型 UNet 部分的訓練，僅通過訓練一個輕量級的可插拔模塊，實現(xiàn)了在推理過程中無需 test-time tuning，同時保持了文本控制的靈活性，確保了面部特征的高保真度。

如圖所示，InstantID 的工作原理可分為三個關鍵部分：

ID Embedding：團隊利用預訓練的面部識別模型代替 CLIP 來提取語義人臉特征，并使用可訓練的投影層，將這些特征映射到文本特征空間，形成 Face Embedding，具有豐富的語義信息，包括如面部特征、表情、年齡等，為后續(xù)的圖像生成提供了堅實的基礎。

Image Adapter：引入一個輕量級的適配模塊，將提取的身份信息與文本提示結合起來。這個模塊通過解耦的交叉注意力機制，使得圖像和文本能夠獨立地影響生成過程，從而在保持身份信息的同時，允許用戶對圖像風格進行精細控制，實現(xiàn)「雙贏」。

IdentityNet：小紅書提出了一個名為 IdentityNet 的網絡，是 InstantID 的核心部分。它通過強語義條件（如面部特征的詳細描述）和弱空間條件（如面部關鍵點的位置）來編碼參考面部圖像的復雜特征。在 IdentityNet 中，生成過程完全由 Face Embedding 引導，無需任何文本信息。僅更新新添加的模塊，而預先訓練的文本到圖像模型保持凍結以確保靈活性。

在實際的圖像生成過程中，InstantID 首先會接收到用戶的文本提示和面部圖像。然后通過 ID Embedding 提取關鍵信息，接著 Image Adapter 將這些信息與文本提示融合。IdentityNet 會根據這些融合后的信息生成圖像。

整個過程是自動化的，用戶不需要進行任何額外的微調或訓練，只需等待二十幾秒，就能得到一個既符合文本描述又保留個人身份特征的定制圖像。

InstantID 不僅解決了訓練效率與身份保真度之間的平衡問題，還提供了一系列令人印象深刻的特性。

首先，InstantID 的即插即用和兼容性是其最大的賣點之一。它無需對 UNet 進行額外訓練，即可與現(xiàn)有的預訓練模型無縫集成，如社區(qū)內的文生圖基礎模型、LoRAs 和 ControlNets。這意味著用戶可以在不增加成本的情況下，輕松地在推理過程中保持人物的身份特征，裂變性強。

其次，InstantID 的無需微調特性，使得它在實際應用中極具經濟性和實用性。用戶只需進行一次前向傳播，即可快速生成圖像，同時保持對文本編輯的強大控制力，讓身份信息與各種風格完美融合。如下圖所示，其編輯性強的特點讓用戶能夠通過文本控制性別、頭發(fā)、服裝等細節(jié)，確保生成圖像的多樣性。

性能方面的表現(xiàn)同樣卓越，它能夠僅憑一張參考圖像，就生成具有高保真度和靈活性的先進結果。這一性能不僅超越了基于單張圖片特征的嵌入方法，如 IP-Adapter-FaceID，而且在特定場景下，其效果與 ROOP、LoRAs 等方法不相上下。

對于相似度有更高要求的真人寫真場景，InstantID 也能完成得不錯。不僅能夠在秒級時間內完成高質量的圖像生成，還避免耗時的 LoRa 訓練，相比妙鴨成本更低，大約是其 1/300。通過精細化控制臉部區(qū)域，InstantID 能夠增強臉部相似度，同時保持整體風格的和諧。

此外，InstantID 的分區(qū)域生成方案支持多人多風格的圖像生成，耗時基本無增。

它的魯棒性和泛化性，使其能順利處理夸張的五官比例。

多視角的生成也沒問題。按你指定的姿勢圖和面部特征，生成新的 AI 寫真。

InstantID 的可擴展性良好，能夠快速支持多種衍生功能。

比如快速換臉。與 Inswapper 相比，InstantID 生成的作品在面孔和背景的融合上更加靈活。

ID 信息插值。InstantID 支持兩臉自定義融合，保留雙方特征。

非人像與 ID 的結合，很有特點。

聊到這兒，不妨你親自嘗試一下，感受它的魅力。

操作方式非常簡單，進入 InstantID 的 Demo 頁面，直接上傳照片，便可免費體驗：

https://huggingface.co/spaces/InstantX/InstantID

InstantID 的這些優(yōu)勢，不僅為個人用戶提供了強大的創(chuàng)作工具，也為商業(yè)應用如電子商務、廣告和娛樂產業(yè)開辟了新的可能性。InstantID 本次表現(xiàn)令人驚喜，其高效、靈活、強大的性能和易用性，印象深刻。期待小紅書該開源項目的后續(xù)進展，未來能在多個領域發(fā)揮出更大的價值。

附錄：