1.特征抽取:用於抽取圖像特征,壹般可以使用vgg、resnet和mobilenet等backbone;
2.RPN(Region Proposal Network):用於產生候選框,主要做壹些粗糙的分類和回歸操作;
3.RoI Pooling:主要是為了解決全連接層需要固定尺寸輸入,而實際輸入大小不壹的問題;
4.Classification and Regression:精細化分類和回歸。
faster rcnn算法大致流程如下:
彩色圖像通過backbone進行特征提取,輸出最後壹層的feature map。接著將這些feature map進壹步做基於3x3卷積核的特征提取,該目的是增強模型的魯棒性。將輸出送入兩個分支,第壹個分支跟類別有關,這裏主要是用於簡單分類,區分是背景還是物體,這是針對anchor而言的;第二個分支則是用於初步預測候選框的偏移量,這個也是基於anchor而言的;再將前兩個分支的結果送入圖中的proposal中,首先會根據positive類的score篩選前6000個候選框,再將anchor的坐標和得到的偏移進行整合,得到初步候選框坐標,接著在做NMS,除去重疊嚴重的框,再經過了NMS後的框中,根據類別score取前300個框。然後將結果送入roi pooing層,用於生成固定尺寸的特征區域,以方便後邊的全連接層接受信息;全連接層用於最後提取特征,得到精細的類別和框的偏移量。