當前位置:吉日网官网 - 傳統節日 - 目標檢測-YOLOv3

目標檢測-YOLOv3

傳統的目標檢測算法應用場景有限,維護成本高。將深度學習方法應用於目標檢測,不僅具有良好的算法適應性,而且可以進行遷移學習,降低成本。

在深度學習目標檢測算法中,基於錨點的方法主要分為壹步法和兩步法。

兩階段法首先選擇感興趣區域,然後進壹步對候選盒進行分類和回歸,最後輸出選擇的盒和對應的分類。兩級模型包括R-CNN系列,如R-CNN、FAST-RCNN、Fast-RCNN等。兩階段模型的優點是精度高,但是速度慢。

壹步法直接對主播進行回歸分類,得到最終的目標幀和類別。算法有YOLOv2,v3,SSD,RetinaNet等等。壹階段模型的推理速度更快,但相對精度會下降。

此外,還有壹些無錨方法,包括基於關鍵點的檢測算法和基於中心的檢測算法。

以下是壹些基本概念和縮寫:

邊界框邊界框

錨點:錨點框架

Roi:感興趣區域特定的感興趣區域。

區域提議:候選區域

區域提議網絡提取候選區域的網絡。

Iou: inter action over union(重疊面積/聯合面積)交集比率,預測幀的質量。

地圖:平均精度

NMS:非最大抑制非最大抑制

YOLO系列模型在保持壹定精度的基礎上,推理速度快。下圖中YOLOv3的推理速度遠遠快於其他模型,因此在實時監控領域有很好的應用。

YOLO的名字來源於《妳只看壹次》,它從名字中道出了YOLO的精髓。

YOLOv1把圖像分成S*S個網絡,物體真實幀的中心落在對應的錨幀負責檢測物體。

每個網格將預測壹個邊界框及其對應的置信度,其中置信度反映了模型對這個框包含對象的抓取及其對這個對象的預測的準確性的信念。所以置信度等於。如果對象不存在,那麽置信度應該等於零。

每個邊界框預測5個值。(x,y)坐標表示相對於網格單元邊界的框架中心。w,y是相對於整個圖像的預測寬度和高度。最後,置信度預測指示預測幀和任何真實幀之間的IOU。

YOLOv2是在v1的基礎上優化的。主幹網采用DarkNet19,輸入圖像大小從224增加到448。網絡結構設置為全卷積網絡結構加批範數,采用Kmeans聚類方法計算錨點,並引入多尺度訓練,使網絡在訓練過程中學習不同尺度的圖像。但也存在壹些需要改進的地方,如對小目標的召回率低,對近距離群體目標的檢測效果差,檢測精度還有優化的空間。

YOLOv3使用了更深層次的骨幹網絡DarkNet53,並在COCO數據集上加入多尺度預測進行聚類。9中不同尺度的主播在分類上使用了sigmoid激活函數,支持目標的多重分類。YOLOv3推理速度快,性價比高,通用性強。缺點是召回率低,定位精度差,對接近或遮擋的群體和小物體檢測能力相對較弱。

YOLOv3在v1的基礎上做了很多改動。

邊界盒預測

YOLOv3使用聚類預測的邊界框作為錨框。網絡預測邊界框的四個坐標值。如果單元格偏離圖像的左上角,並且前壹邊界框的寬度和高度為0,則預測如下:

YOLOv3通過邏輯回歸預測每個邊界框的客觀性分數。如果壹個邊界框和真實框重疊的部分比其他的多,那麽它的客觀性得分應該是1。其他框將被忽略,盡管它們也與實際框重疊。

類別預測

使用了Sigmoid函數,但沒有使用softmax,因為沒有必要。

不同尺度的預測

YOLOv3使用k-means聚類來確定包圍盒先驗,選擇9個聚類和3個尺度,然後在整個尺度上均勻劃分聚類。在COCO數據集上,9個聚類分別為(10×13)、(16×30)、(33×23)、(30×61)、(62×45)和(59× 65438)。

特征抽出

YOLOv3用的是Darknet-53,特點是加入了殘差,比之前的網絡更深(它有53個卷積層,所以叫Darknet-53)。

借壹張圖看看YOLOv3的全過程:

每個輸出分支對應於三個尺寸的在先盒子(總共* * * 3 ^ 3 = 9個刻度)。32倍下采樣網格後,每個網格對應輸入圖像上32×32的面積,適合檢測大尺寸目標,8倍下采樣網格適合檢測小尺寸目標。

輸出特征的高度H和寬度W相當於將圖像劃分為H*W個網格,而不是直接在圖像上繪制網格。也就是說,32次下采樣後得到的東西相當於在輸入圖像上畫了壹個網格,每個網格對應輸出特征圖上的壹個點。

特征圖的c通道表示預測框的信息,包括坐標信息、目標置信度和分類。

C=B*(1+4+class_num),其中B是在特征圖上分配的錨幀的數量。

損失函數有三種,分類損失、定位損失和客觀性損失。分類使用sigmoid激活函數,損失是sigmoid交叉熵。位置損失使用x和y上的sigmoid函數和sigmoid交叉熵損失,w和h上的L1損失,對象性損失使用sigmoid激活函數和sigmoid交叉熵損失。

對於與真實幀重疊的幀,應該計算所有三個損耗。

對於沒有真實幀重疊的幀,只計算客觀性(0);忽略與真實盒子重疊但不是最佳匹配的盒子。

  • 上一篇:男包哪個牌子比較好?
  • 下一篇:宣傳社區衛生知識
  • copyright 2024吉日网官网