目錄
1問題的推導
2 CNN用於語義分割的特點(優缺點)
用於語義分割的3種FCN的特征(優點和缺點)
全卷積網絡主要用於語義分割任務。最近Siamese-RPN偶然看到這個概念,我就用手寫下來。這裏只提因果和簡單概念,需要推導的同學去查上面的論文。
CNN可以對圖片進行分類,但是如何才能更好的識別圖片特定部分的物體呢?
傳統的基於CNN的分割方法通常使用像素周圍的圖像塊作為CNN的輸入進行訓練和預測,從而對像素進行分類。
優勢:
CNN的強項在於其多層結構可以自動學習特征,可以學習多個層次的特征:淺卷積層的感知域更小,學習壹些局部區域的特征;卷積層越深,感知域越大,可以學習更多的抽象特征。這些抽象特征對物體的大小、位置和方向不太敏感,有助於提高識別性能。
缺點:
FCN將傳統CNN中的全連接層轉換成卷積層。如下圖所示,在傳統的CNN結構中,前五層是卷積層,第六層和第七層是長度為4096的壹維向量,第八層是長度為1000的壹維向量,分別對應1000個類別的概率。FCN將這三層表示為卷積層,卷積核的大小(通道數,寬度和高度)分別為(4096,1,1),(4096,1,1)和(1000,65438)。所有層都是卷積層,所以稱為全卷積網絡。簡單來說,CNN中的fc(全連接)層被卷積層取代,網絡結構不再有fc層。
可以發現經過多次卷積(和池化),圖像越來越小,分辨率越來越低(粗糙圖像)。那麽FCN是如何得到圖像中每個像素的類別的呢?為了從這個低分辨率的粗糙圖像恢復到原始圖像的分辨率,FCN使用了上采樣。例如,經過五次卷積(和池化),圖像的分辨率降低了2、4、8、16和32倍。對於最後壹層的輸出圖像,需要進行32倍的上采樣,以獲得與原始圖像相同的大小。這種上采樣是通過去卷積實現的。第五層(放大32倍)的輸出去卷積到原圖大小,得到的結果還是不夠精確,有些細節無法恢復。於是喬納森依次對第4層的輸出和第3層的輸出進行解卷積,分別需要16次和8次上采樣,結果更精細。
優勢:
缺點:
關於上采樣方法的更多細節,請參考參考文獻(3)。