接觸機器學習和深度學習時間已經不短了。期間看過各種相關知識但從未總結過。本文過後我會盡可能詳細的從工程角度來總結,從傳統機器學習算法,傳統計算機視覺庫算法到深度學習目前常用算法和論文,以及模型在各平臺的轉化,量化,服務化部署等相關知識總結。
圖像分割常用算法大致分為下面幾類。由於圖像的能量範函,邊緣追蹤等方法的效果往往只能解決特定問題,效果並不理想,這裏不再闡述。當然二值化本身也可以分割壹些簡單圖像的。但是二值化算法較多,我會專門做壹個文章來總結。這裏不再贅述。
1.基於邊緣的圖像分割算法:
有利用圖像梯度的傳統算法算子的sobel,roberts,prewitt,拉普拉斯以及canny等。
這些算法的基本思想都是采用合適的卷積算子,對圖像做卷積。從而求出圖像對應的梯度圖像。(至於為什麽通過如圖1這樣的算子卷積,即可得到圖像的梯度圖像,請讀者復習下卷積和倒數的概念自行推導)由於圖像的邊緣處往往是圖像像素差異較大,梯度較大地方。因此我們通過合適的卷積核得到圖像的梯度圖像,即得到了圖像的邊緣圖像。至於二階算子的推導,與壹階類似。優點:傳統算子梯度檢測,只需要用合適的卷積核做卷積,即可快速得出對應的邊緣圖像。缺點:圖像邊緣不壹定準確,復雜圖像的梯度不僅僅出現在圖像邊緣,可以能出現在圖像內部的色彩和紋理上。
?也有基於深度學習方法hed,rcf等。由於這類網絡都有同壹個比較嚴重的缺陷,這裏只舉例hed網絡。hed是基於FCN和VGG改進,同時引出6個loss進行優化訓練,通過多個層輸出不同scale的粒度的邊緣,然後通過壹個訓練權重融合各個層的邊緣結果。hed網絡結構如下:
可以得到壹個比較完整的梯度圖像,可參考github的hed實現。優點:圖像的梯度細節和邊緣完整性,相比傳統的邊緣算子要好很多。但是hed對於邊緣的圖像內部的邊緣並不能很好的區分。當然我們可以自行更改loss來嘗試只擬合外部的圖像邊緣。但最致命的問題在於,基於vgg的hed的網絡表達能力有限,對於圖像和背景接近,或者圖像和背景部分相融的圖片,hed似乎就有點無能為力了。
2.基於區域分割的算法:
區域分割比較常用的如傳統的算法結合遺傳算法,區域生長算法,區域分裂合並,分水嶺算法等。這裏傳統算法的思路是比較簡單易懂的,如果有無法理解的地方,歡迎大家壹起討論學習。這裏不再做過多的分析。
基於區域和語意的深度學習分割算法,是目前圖像分割成果較多和研究的主要方向。例如FCN系列的全卷積網絡,以及經典的醫學圖像分割常用的unet系列,以及rcnn系列發展下的maskrcnn,以及18年底的PAnet。基於語意的圖像分割技術,無疑會成為圖像分割技術的主流。
其中,基於深度學習語意的其他相關算法也可以間接或直接的應用到圖像分割。如經典的圖像matting問題。18年又出現了許多非常優秀的算法和論文。如Deep-Image-Matting,以及效果非常優秀的MIT的 semantic soft segmentation(sss).
基於語意的圖像分割效果明顯要好於其他的傳統算法。我在解決圖像分割的問題時,首先嘗試用了hed網絡。最後的效果並不理想。雖然也參考github,做了hed的壹些fine-tune,但是還是上面提到的原因,在我多次嘗試後,最終放棄。轉而適用FCN系列的網絡。但是fcn也無法解決圖像和背景相融的問題。圖片相融的分割,感覺即需要大的感受野,又需要未相融部分原圖像細節,所以單原FCN的網絡,很難做出準確的分割。中間還測試過很多其他相關的網絡,但都效果不佳。考慮到感受野和原圖像細節,嘗試了resnet和densenet作為圖像特征提取的底層。最終我測試了unet系列的網絡:
unet的原始模型如圖所示。在自己拍照爬蟲等手段采集了將近1000張圖片。去掉了圖片質量太差的,圖片內容太過類似的。爬蟲最終收集160多張,自己拍照收集200張圖片後,又用ps手動p了邊緣圖像,采用圖像增強變換,大約有300*24張圖片。原生unet網絡的表現比較壹般。在將unet普通的卷積層改為resnet後,網絡的表達能力明顯提升。在將resnet改為resnet101,此時,即使對於部分相融的圖像,也能較好的分割了。但是unet的模型體積已經不能接受。
在最後階段,看到maskrcnn的實例分割。maskrcnn壹路由rcnn,fasterrcnn發展過來。於是用maskrcnn來加入自己的訓練數據和label圖像進行訓練。maskrcnn的結果表現並不令人滿意,對於邊緣的定位,相比於其他算法,略顯粗糙。在產品應用中,明顯還不合適。
3.基於圖的分割算法
基於深度學習的deepgrab,效果表現並不是十分理想。deepgrab的git作者backbone采用了deeplabv2的網絡結構。並沒有完全安裝原論文來做。
論文原地址參考: https://arxiv.org/pdf/1707.00243.pdf
整體結構類似於encode和decoder。並沒有太仔細的研究,因為基於resent101的結構,在模型體積,速度以及deeplab的分割精度上,都不能滿足當前的需求。之前大致總結過計算機視覺的相關知識點,既然目前在討論移動端模型,那後面就分模塊總結下移動端模型的應用落地吧。
由於時間實在有限。這裏並沒有針對每個算法進行詳細的講解。後續我會從基礎的機器學習算法開始總結。