【#區(qū)塊鏈# #視頻場景圖生成任務(wù)新SOTA!中山大學(xué)提出全新時空知識嵌入框架,登頂刊TIP'24#】
原文來源:新智元
圖片來源:由無界 AI生成
STKET框架將先驗時空知識納入多頭交叉注意機制中,從而可以學(xué)習(xí)到更多有代表性的視覺關(guān)系表示,在視頻圖生成基準上大幅領(lǐng)先其他算法。
視頻場景圖生成(VidSGG)旨在識別視覺場景中的對象并推斷它們之間的視覺關(guān)系。
該任務(wù)不僅需要全面了解分散在整個場景中的每個對象,還需要深入研究它們在時序上的運動和交互。
最近,來自中山大學(xué)的研究人員在人工智能頂級期刊IEEE T-IP上發(fā)表了一篇論文,進行了相關(guān)任務(wù)的探索并發(fā)現(xiàn):每對物體組合及其它們之間的關(guān)系在每個圖像內(nèi)具有空間共現(xiàn)相關(guān)性,并且在不同圖像之間具有時間一致性/轉(zhuǎn)換相關(guān)性。
論文鏈接:https://arxiv.org/abs/2309.13237
基于這些先驗知識,研究人員提出了一種基于時空知識嵌入的Transformer(STKET)將先驗時空知識納入多頭交叉注意機制中,從而學(xué)習(xí)更多有代表性的視覺關(guān)系表示。
具體來說,首先以統(tǒng)計方式學(xué)習(xí)空間共現(xiàn)和時間轉(zhuǎn)換相關(guān)性;然后,設(shè)計了時空知識嵌入層對視覺表示與知識之間的交互進行充分探索,分別生成空間和時間知識嵌入的視覺關(guān)系表示;最后,作者聚合這些特征,以預(yù)測最終的語義標簽及其視覺關(guān)系。
大量實驗表明,文中提出的框架大幅優(yōu)于當(dāng)前競爭算法。目前,該論文已經(jīng)被接收。
論文概述
隨著場景理解領(lǐng)域的快速發(fā)展,許多研究者們開始嘗試利用各種框架解決場景圖生成(Scene Graph Generation, SGG)任務(wù),并已取得了不俗的進展。
但是,這些方法往往只考慮單張圖像的情況,忽略了時序中存在著的大量的上下文信息,導(dǎo)致現(xiàn)有大部分場景圖生成算法在無法準確地識別所給定的視頻中包含的動態(tài)視覺關(guān)系。
因此,許多研究者致力于開發(fā)視頻場景圖生成(Video Scene Graph Generation, VidSGG)算法來解決這個問題。
目前的工作主要關(guān)注從空間和時間角度聚合對象級視覺信息,以學(xué)習(xí)對應(yīng)的視覺關(guān)系表示。
然而,由于各類物體與交互動作的視覺外表方差大以及視頻收集所導(dǎo)致的視覺關(guān)系顯著的長尾分布,單純的僅用視覺信息容易導(dǎo)致模型預(yù)測錯誤的視覺關(guān)系。
針對上述問題,研究人員做了以下兩方面的工作:
首先,提出挖掘訓(xùn)練樣本中包含的先驗時空知識用以促進視頻場景圖生成領(lǐng)域。其中,先驗時空知識包括:
1)空間共現(xiàn)相關(guān)性:某些對象類別之間的關(guān)系傾向于特定的交互。
2)時間一致性/轉(zhuǎn)換相關(guān)性:給定對的關(guān)系在連續(xù)視頻剪輯中往往是一致的,或者很有可能轉(zhuǎn)換到另一個特定關(guān)系。
其次,提出了一種新穎的基于時空知識嵌入的Transformer(Spatial-Temporal Knowledge-Embedded Transformer, STKET)框架。
該框架將先驗時空知識納入多頭交叉注意機制中,從而學(xué)習(xí)更多有代表性的視覺關(guān)系表示。根據(jù)在測試基準上得到的比較結(jié)果可以發(fā)現(xiàn),研究人員所提出的STKET框架優(yōu)于以前的最先進方法。
圖1:由于視覺外表多變和視覺關(guān)系的長尾分布,導(dǎo)致視頻場景圖生成充滿挑戰(zhàn)
基于時空知識嵌入的Transformer
在推斷視覺關(guān)系時,人類不僅利用視覺線索,還利用積累的先驗知識[1, 2]。受此啟發(fā),研究人員提出直接從訓(xùn)練集中提取先驗時空知識,以促進視頻場景圖生成任務(wù)。
其中,空間共現(xiàn)相關(guān)性具體表現(xiàn)為當(dāng)給定物體組合后其視覺關(guān)系分布將高度傾斜(例如,「人」與「杯子」之間的視覺關(guān)系的分布明顯不同于「狗」與「玩具」之間的分布)和時間轉(zhuǎn)移相關(guān)性具體表現(xiàn)為當(dāng)給定前一時刻的視覺關(guān)系后各個視覺關(guān)系的轉(zhuǎn)換概率將大幅變化(例如,當(dāng)已知前一時刻的視覺關(guān)系為「吃」時,下一時刻視覺關(guān)系轉(zhuǎn)移為「書寫」的概率大幅下降)。
如圖2所示,可以直觀地感受到給定物體組合或之前的視覺關(guān)系后,預(yù)測空間可以被大幅的縮減。
圖2:視覺關(guān)系的空間共現(xiàn)概率[3]與時間轉(zhuǎn)移概率
具體而言,對于第i類物體與第j類物體的組合,以及其上一時刻為第x類關(guān)系的情況,首先通過統(tǒng)計的方式獲得其對應(yīng)的空間共現(xiàn)概率矩陣E^{i,j}和時間轉(zhuǎn)移概率矩陣Ex^{i,j}。
接著,將其輸入到全連接層中得到對應(yīng)的特征表示,并利用對應(yīng)的目標函數(shù)確保模型所學(xué)到的的知識表示包含對應(yīng)的先驗時空知識。
圖3:學(xué)習(xí)空間(a)和時間(b)知識表示的過程
空間知識通常包含有關(guān)實體之間的位置、距離和關(guān)系的信息。另一方面,時間知識涉及動作之間的順序、持續(xù)時間和間隔。
鑒于它們獨特的屬性,單獨處理它們可以允許專門的建模更準確地捕獲固有模式。
因此,研究人員設(shè)計了時空知識嵌入層,徹底探索視覺表示與時空知識之間的相互作用。
圖4:空間(左側(cè))和時間(右側(cè))知識嵌入層
如前所述,空間知識嵌入層探索每個圖像內(nèi)的空間共現(xiàn)相關(guān)性,時間知識嵌入層探索不同圖像之間的時間轉(zhuǎn)移相關(guān)性,以此充分探索了視覺表示和時空知識之間的相互作用。
盡管如此,這兩層忽略了長時序的上下文信息,而這對于識別大部分動態(tài)變化的視覺關(guān)系具有幫助。
為此,研究人員進一步設(shè)計了時空聚合(STA)模塊來聚合每個對象對的這些表示,以預(yù)測最終的語義標簽及其關(guān)系。它將不同幀中相同主客體對的空間和時間嵌入關(guān)系表示作為輸入。
具體來說,研究人員將同一對象對的這些表示連接起來以生成上下文表示。
然后,為了在不同幀中找到相同的主客體對,采用預(yù)測的對象標簽和IoU(即并集交集)來匹配幀中檢測到的相同主客體對。
最后,考慮到幀中的關(guān)系在不同批次中有不同的表示,選擇滑動窗口中最早出現(xiàn)的表示。
為了全面評估所提出的框架的性能,研究人員除了對比現(xiàn)有的視頻場景圖生成方法(STTran, TPI, APT)外,也選取了先進的圖像場景圖生成方法(KERN, VCTREE, ReIDN, GPS-Net)進行比較。
其中,為確保對比的公平,圖像場景圖生成方法通過對每一幀圖像進行識別,從而達到對所給定視頻生成對應(yīng)場景圖的目標。
圖5:在Action Genome數(shù)據(jù)集上以Recall為評價指標的實驗結(jié)果
圖6:在Action Genome數(shù)據(jù)集上以mean Recall為評價指標的實驗結(jié)果
參考資料:
[1] A. Vandenbroucke, J. Fahrenfort, J. Meuwese, H. Scholte, V. Lamme, "Prior knowledge about objects determines neural color representation in human visual cortex", in Cerebral cortex 2016.?
[2] T. Chen, W. Yu, R. Chen, and L. Lin, "Knowledge-Embedded Routing Network for Scene Graph Generation", in CVPR 2018.?
[3] R. Zellers, M. Yatskar, S. Thomson, and Y. Choi, "Neural Motifs: Scene Graph Parsing with Global Context", in CVPR 2018.
小編推薦下載
相關(guān)推薦
相關(guān)文章
更多>>資訊排行
同類軟件下載
熱門標簽