當前位置:吉日网官网 - 傳統節日 - 檢測基礎知識介紹(壹)——模型架構

檢測基礎知識介紹(壹)——模型架構

如何從圖像中分析出計算機能夠理解的信息,是機器視覺的中心問題。深度學習模型由於其強大的表示能力、數據的積累和計算能力的進步,已經成為機器視覺的壹個熱門研究方向。

那麽,如何理解壹張圖呢?根據後續任務的需要,主要有三個層次。

壹種是分類,即將圖像結構化為某壹類信息,用預先確定的字符串或實例ID來描述圖像。該任務是圖像理解最簡單、最基礎的任務,也是深度學習模型取得突破、實現大規模應用的首要任務。其中ImageNet是最權威的評測集。ILSVRC每年都會誕生大量優秀的深度網絡結構,為其他任務提供基礎。在應用領域,人臉和場景的識別可以歸為分類任務。

二是檢測。分類任務關註的是整體,給出的是整張圖片的內容描述,而檢測關註的是具體的物體目標,既需要類別信息,也需要位置信息。與分類相比,檢測給出了對圖片前景和背景的理解。我們需要將感興趣的對象從背景中分離出來,並確定這個對象的描述(類別和位置)。因此,檢測模型的輸出是壹個列表,列表中的每壹項都用壹個數據組給出被檢測對象的類別和位置(通常用壹個矩形檢測框的坐標表示)。

第三是細分。切分包括語義切分和實例切分。前者是前景-背景分離的擴展,需要分離出具有不同語義的圖像部分,後者是檢測任務的擴展,需要描述目標的輪廓(比檢測幀更詳細)。分割是對圖像的像素級描述,賦予每個像素類別(實例)以意義,適用於理解要求較高的場景,比如無人駕駛中的道路和非道路分割。

兩階段模型因其對圖片的兩階段處理而得名,也稱為基於區域的方法。我們選擇R-CNN系列作為這種類型的代表。

本文的兩個貢獻:1)CNN可用於基於區域的物體定位和分割;2)當監督訓練樣本數量不足時,在附加數據上預訓練的模型可以通過微調達到較好的效果。第壹個貢獻影響了幾乎所有隨後的2階段方法,而第二個貢獻使用Imagenet中訓練的模型作為基礎網絡,並且在隨後的工作中也使用了在檢測問題中進行微調的做法。

傳統的計算機視覺方法往往使用精心設計的人工特征(如SIFT、HOG)來描述圖像,而深度學習方法則主張特征的獲取。從圖像分類任務的經驗來看,CNN網絡自動獲取特征的效果已經超過了人工設計。本文將卷積網絡應用於局部區域,充分發揮卷積網絡學習高質量特征的能力。

R-CNN將檢測抽象為兩個過程。壹種是基於圖片提出壹些可能包含物體的區域(即圖片的局部裁剪,稱為區域提議),本文采用的是選擇性搜索算法。二是在這些提出的區域內運行表現最好的分類網絡(AlexNet),得到每個區域內物體的類別。

此外,文章中有兩個做法值得註意。

首先是數據準備。在進入CNN之前,我們需要根據地面真實情況標記出建議的區域提議,這裏使用的索引是IoU(交集超過並集)。IoU計算兩個區域的相交面積與其總和的比率,並描述兩個區域之間的重疊程度。

文中特別提到,IoU閾值的選擇對結果有重大影響。這裏要講兩個閾值,壹個用來識別正樣本(比如地面真值大於0.5的IoU),壹個用來標記負樣本(比如背景類,比如IoU小於0.1),介於兩者之間的是硬負。如果標記為正類,則包含太多。

另壹點是位置坐標的包圍盒回歸。這個過程是從區域建議到地面真實的調整,加上log/exp變換,使損失保持在合理的順序,可以看作是標準化操作。

R-CNN的思路很直白,就是把檢測任務轉化為區域分類任務,是對深度學習方法在檢測任務中的壹種檢驗。模型本身也存在很多問題,比如需要訓練三個不同的模型(提議、分類、回歸)以及重復計算過多導致的性能問題。盡管如此,本文中的許多實踐仍然對探測任務中的深度模型革命產生了廣泛的影響,並且許多後續工作也旨在改進這項工作。這篇論文可以稱為“第壹篇論文”。

文章指出,R-CNN之所以費時,是因為CNN在每壹個提案上都是壹個人做,沒有* * *享受計算。所以提出全圖運行後將基本網絡放入R-CNN子網,* * *享受大部分計算,所以有Fast之名。

上圖是Fast R-CNN的架構。通過特征提取器從圖像中獲取特征圖,同時在原始圖像上運行選擇性搜索算法,將ROI(實際上是壹個坐標組,可以與區域建議混合)映射到特征圖上。對每個感興趣區域進行感興趣區域合並操作後,得到長度相等的特征向量。將這些特征向量的正負樣本整理出來(保持壹定比例的正負樣本),批量引入並行R-CNN子網絡,同時分類回歸,統壹兩者的損失。

文末的討論也有壹定的參考意義:

快速R-CNN的這種結構是主流2階段檢測任務方法所采用的元結構的雛形。本文將提出,特征提取器,對象分類& amp;局部化統壹在壹個整體結構中,通過* * *共享卷積計算提高特征利用效率,這是貢獻最大的地方。

快速R-CNN是兩階段法的基礎工作,提出的RPN網絡代替了選擇性搜索算法,使得檢測任務可以由神經網絡端到端地完成。粗略來說,更快的R-CNN = RPN+快速R-CNN,享受與RCNN***,卷積計算,使得RPN引入的計算量非常小,使得更快的R-CNN可以在單個GPU上以5fps的速度運行,在精度上達到SOTA(最先進水平)。

本文的主要貢獻是提出了區域提議網絡來代替以前的SS算法。RPN網絡將提議的任務建模為二元分類(無論它是否是對象)。

第壹步,在壹個滑動窗口上生成不同大小和長寬比的錨框(如上圖右半部分所示),設置IoU的閾值,根據Ground Truth校準這些錨框的正負。因此,傳輸到RPN網絡中的樣本數據被排序為錨盒(坐標)和每個錨盒中是否有對象(兩類標簽)。RPN網絡將每個樣本映射到壹個概率值和四個坐標值。概率值反映了錨盒有對象的概率,四個坐標值用來回歸定義對象的位置。最後,將二元分類和坐標回歸的損失統壹作為RPN網絡的目標訓練。

RPN得到的區域建議根據概率值進行過濾,經過類似的標記過程後,傳輸到R-CNN子網進行多分類和坐標回歸,兩者的損失也通過多任務損失合並。

更快R-CNN的成功在於用RPN網絡“深化”了檢測任務。使用滑動窗口生成錨盒的思想也越來越多的被後期作品采用(YOLO v2等。).這項工作奠定了“RPN+RCNN”的兩階段方法元結構,影響了後續的大部分工作。

單階段模型沒有中間區域檢測過程,預測結果直接從圖片中獲得,也就是所謂的無區域法。

YOLO是單階段法的開山之作。它將檢測任務表示為壹個統壹的、端到端的回歸問題,因只處理圖像壹次就能同時得到位置和分類而得名。

YOLO的主要優勢:

1.準備數據:對圖片進行縮放,分成相等的網格,每個網格根據地面真實度的IoU分配給待預測的樣本。

2.卷積網絡:由GoogLeNet修改而來,每個網格為每個類別預測壹個條件概率值,基於網格生成B個盒子,每個盒子預測五個回歸值,四個代表位置,第五個代表包含對象(註意不是某壹類對象)的盒子的概率和位置精度(用IoU表示)。測試時,分數計算如下:

等式左側的第壹項由網格預測,後兩項由每個盒子預測,每個包含不同類型對象的盒子的得分由條件概率獲得。因此,卷積網絡* * *輸出的預測值個數為S×S×(B×5+C),其中S為網格數,B為每個網格生成的盒數,C為類別數。

3.後處理:使用NMS(非最大抑制)濾波來獲得最終的預測幀。

損失函數分為三部分:坐標誤差、物體誤差和類別誤差。為了平衡不平衡類別和大小物體的影響,在損失函數中加入權重,以長度和寬度為根。

YOLO提出了單階段的新觀點。與兩階段法相比,其速度優勢明顯,實時性令人印象深刻。然而,YOLO本身存在壹些問題,如粗糙的網格劃分和每個網格生成的盒子數量,這限制了對小尺度物體和類似物體的檢測。

與YOLO相比,固態硬盤有以下突出特點:

SSD是單級模型的早期集大成者,達到了接近兩級模型的精度,速度比兩級模型快壹個數量級。後續的單階段模型工作多以SSD改進為主。

最後,我們對檢測模型的基本特征做了簡單的總結。

檢測模型整體上由主幹網絡和檢測頭組成。前者作為特征提取器,給出不同大小、不同抽象層次的圖像;後者根據這些表示和監督信息學習類別和位置關聯。類別預測和位置回歸這兩項任務往往並行進行,構成了聯合訓練多任務的損失。

另壹方面,單級模型只有壹個類預測和位置回歸,所以卷積運算的享受程度更高,速度更快,占用內存更少。讀者將在下壹篇文章中看到,兩類模式也在互相吸收對方的優點,這也使得兩者之間的界限更加模糊。

  • 上一篇:臺灣省評論中國大陸的傳統婚禮
  • 下一篇:周傑倫的詳細資料是什麽?
  • copyright 2024吉日网官网