全卷積網絡(full convolutionary Networks,FCN)是壹個用於圖像語義分割的框架,由加州大學伯克利分校的Jonathan Long等人在2015的文章《用於語義分割的全卷積網絡》中提出。雖然很多文章都介紹了這個框架,但我還是想在這裏整理壹下我的理解。
整個網絡結構分為兩部分:全卷積部分和反卷積部分。在全卷積部分,壹些經典的CNN網絡(如AlexNet、VGG、GoogLeNet等。)被借用,最後壹個全連通層被卷積代替,用於提取特征,形成熱點圖。去卷積部分是對小尺寸的熱點圖進行采樣,得到原始尺寸的語義分割圖像。
網絡的輸入可以是任何尺寸的彩色圖像;輸出與輸入大小相同,通道數為n(目標類別數)+1(背景)。
CNN卷積部分的網絡的目的是允許輸入畫面是超過壹定尺寸的任意尺寸,而不是全連接。
因為我們的熱圖在卷積過程中變得很小(比如長和寬變成了原圖),為了得到原圖大小的密集像素預測,我們需要上采樣。
壹個直觀的思路就是雙線性插值,雙線性插值可以很容易的用壹個固定的卷積核進行反向卷積實現。逆卷積也可以叫反卷積,在最近的文章中通常稱為轉置卷積。
在實際應用中,作者不固定卷積核,而是使卷積核成為壹個可學習的參數。
如果用上面提到的上采樣技術把最後壹層的特征圖分割成原來的大小,會因為最後壹層的特征圖太小而丟失很多細節。因此,作者提出加入Skips結構,將最後壹層的預測(具有更豐富的全局信息)與更淺層的預測(具有更多的局部細節)結合起來,這樣就可以在觀察全局預測的同時進行局部預測。
FCN仍有壹些缺點,如:
得到的結果不夠精確,對細節敏感;
沒有考慮像素之間的關系,缺乏空間壹致性。
參考:zomi,全卷積網FCN詳解:知乎專欄
作者的其他相關文章:
PointNet:基於深度學習的3D點雲分類分割模型詳解
基於視覺的機器人室內定位