當前位置:吉日网官网 - 傳統節日 - 內容感知非監督深度單應估計

內容感知非監督深度單應估計

單應性估計是許多應用中的基本圖像對齊方法。它通常通過提取和匹配稀疏特征點來進行,這些特征點在低光和低紋理圖像中容易出錯。另壹方面,以前的深度單應性方法要麽使用合成圖像進行監督學習,要麽使用航拍圖像進行無監督學習,都忽略了在現實世界應用中處理深度差異和移動物體的重要性。為了克服這些問題,在這項工作中,我們提出了壹種具有新架構設計的無監督深度單應性方法。本著傳統方法中 RANSAC 程序的精神,我們專門學習了壹個異常值掩碼,以僅選擇可靠的區域進行單應性估計。我們根據學習到的深度特征計算損失,而不是像以前那樣直接比較圖像內容。為了實現無監督訓練,我們還為我們的網絡制定了壹個新的三元組損失。我們通過對新數據集進行全面比較來驗證我們的方法,該數據集涵蓋了任務難度不同的廣泛場景。實驗結果表明,我們的方法優於最先進的方法,包括深度解決方案和基於特征的解決方案。

估計單應性可以對齊從不同角度拍攝的圖像。但需要壹個前提條件,那就是圖像是經歷旋轉運動或是近似平面的。對於滿足這種約束的情況,單應性可以直接用來對齊。對於不滿足這種情況的場景,估計單應性也是使用更高級模型的前提,用於初始對齊。因此,單應性的估計至關重要。

作者比較了兩種估計單應性的方法:

為了解決上述的問題,作者提出壹種內容意識學習的新架構,構建無監督單應性估計解決方案。這種方法適用於基線較小的情況,適用於連續幀、連拍圖像或雙攝相機拍攝的照片。

作者的主要貢獻為:

傳統的單應性估計 :單應矩陣為壹個 的8自由度的矩陣構成,為了解決單應性,傳統方法利用特征提取和檢測匹配圖像。例如SIFT、SURF等等,然後采用魯棒估計如RANSAC、MAGSAC等,用於模型估計期間的異常值拒絕。

深單應性 :隨著光流等各種深度圖像對齊方法的成功, 密集匹配 ,學習描述符和深層特征,壹個深度單應性解決方案首先在2016年提出。網絡以源圖像和目標圖像為輸入,產生源圖像的4個角位移向量,從而產生單應性。它使用 GT 單應性來監督訓練。然而,生成具有 GT 單應性的訓練圖像時沒有深度差異。

圖像拼接 :圖像拼接方法是專註於在大基線下拼接圖像的傳統方法為了構建全景圖。拼接的圖像通常以巨大的視點差異捕獲。在這項工作中,我們專註於具有小基線的圖像,以用於多幀應用程序。

作者的方法基於卷積神經網絡。需要兩個灰度圖 和 作為輸入,估計從 到 的單應性 ,整個結構可以被分為三個部分:特征提取 、掩碼預測 和單應估計 , 和 是純卷積神經網絡,可以接收任意大小的圖像, 使用ResNet-34作為backbone並且生成8個值。

不像之前提到的DNN的方法直接使用像素強度作為特征,作者提出的方法自動從輸入圖像中學習魯棒的特征對齊,最終建立壹個全卷積神經網絡,輸入圖像大小為 ,產生壹個大小為 的特征圖。對於輸入圖像 和 ,提取到的特征分別為:

在非平面區域,特別是包括移動物體的情況下,不存在壹個單應性可以將兩張圖片對齊。借助RANSAC的思想,作者構建壹個子網絡學習內點的位置。具體而言,利用子網絡 生成內部概率圖或掩碼,突出顯示對單應性估計貢獻很大的特征圖中的內容。掩碼 和 的大小與特征圖大小相同。有了掩碼之後,在將數據餵到單應矩陣估計前可以對特征提取後的特征進行加權。,獲得帶權重的特征圖:

有了帶權重的特征圖 和 ,可以構建壹個 的特征圖 ,餵到單應估計中,輸出4個2為偏置(8個值)作為輸出,以此估計單應性。用 表示這壹過程,即

為ResNet-34結構,輸出大小固定為8.

單應矩陣 估計之後,將 扭曲為 ,得到特征圖 ,如果單應矩陣估計正確,那麽 和 應該對齊,誤差 會盡可能小,考慮到實際情況,單應矩陣不可能完全將兩幅圖像對齊,采用 和 對齊圖像。

下標 表示掩碼和特征圖中的像素位置。

直接最小化(4)會使得 和 都為0,不能真實反映原始圖像的對齊關系,定義另壹種損失函數

最小化(4)的同時最大化(5),可以避免全零解。

在實際中,作者還產生了 到 的另壹個單應矩陣 ,還使用了(4)式得到計算 到 的損失函數 ,將 和 互為逆作為約束條件,因此最終的損失函數變為:

在實驗中,作者將 和 分別設為2.0和0.01,結果如下圖所示。

作者提出了壹種新架構,用於具有內容感知能力的無監督深度單應性估計,適用於小型基線場景。與嚴重依賴圖像特征質量而容易受到低紋理和低光場景影響的傳統特征基方法或以前不太關註深度視差問題的基於 DNN 的解決方案不同,本文提出的網絡學習了壹個內容感知掩碼在估計期間拒絕異常值,以便網絡可以專註於可以通過單應性對齊的區域。為了實現它,我們設計了壹種新穎的三元組損失來實現對我們網絡的無監督訓練。此外,我們提供了壹個用於圖像對齊的綜合數據集。數據集分為5類場景,可用於未來圖像對齊模型的研究,包括但不限於單應性、網格對齊和光流。大量的實驗和消融研究證明了我們的網絡以及三重損失設計的有效性,並揭示了我們的方法相對於最先進技術的優越性。

  • 上一篇:亞文化圈的發展與生存狀態
  • 下一篇:召開森林防火工作會議簡報
  • copyright 2024吉日网官网