CSDN
目前。計算機視覺中性能最好的目標檢測方法有兩種:壹步法和兩步法。兩階段法分為兩個步驟。第壹步是候選區域生成階段,並且可以通過諸如選擇性搜索和邊緣框的方法來生成相對少量的候選目標檢測幀。第二步是分類和回歸階段,對第壹階段生成的候選建議進行分類和回歸。壹階段的代表方法有R-CNN系列,如R-CNN、FAST R-CNN、FAST R-CNN等。壹階段法直接對大量的婚禮提案進行分類回歸。
這兩種方法都存在壹個類別不平衡的問題。兩階段法通過第壹步將等價候選區域縮小到壹個較小的範圍,同時在第二步通過壹些啟發式原則在壹定程度上降低了正負樣本的比例。但是壹步減少候選幀總比沒有壹步好,所以候選區域的數量大大超過了兩步法。因此,兩階段法在精度上仍優於壹階段法,但在速度和模型復雜度上壹階段占優。
類別不平衡會使檢測器評估候選位置,但通常只有壹小部分位置有目標,這導致兩個問題:
因此,解決樣本不平衡問題是提高目標檢測精度的關鍵技術之壹。
論文題目:使用在線硬示例挖掘訓練基於區域的對象檢測器。
OHEM通過改進硬樣本挖掘方法,采用在線學習算法,特別是基於SGD的神經網絡方法。硬示例挖掘通過用當前樣本集交替訓練模型,然後修復模型並選擇假陽性樣本,為下壹次模型訓練重建樣本集。但由於訓練神經網絡技能是壹個耗時的操作,在訓練中固定模型會大大減少模型的訓練過程。
硬例挖掘通常有兩種方法:
OHEM算法的壹般流程是:首先計算每個ROI的損失,然後按照損失從高到低排列每個ROI,然後為每張圖片選擇損失最高的ROI作為硬例,其中b代表ROI總數和批量大小。在快速R-CNN中,當N=2,B=128時,效果非常好。
但是,如果直接根據損失來選擇所有的ROI,就會有壹個缺點。因為有很多ROI,所以很多ROI的位置會有關聯和重疊。如果有很多與某個高損失高度重疊的其他ROI,通常會有這些ROI的很多損失,這樣這些樣本會被選擇,但可以近似認為是相同的,這樣會給其他損失較低的ROI較少的選擇,因而會有冗余。為了消除這種冗余,作者提出用NMS(非最大值抑制)刪除部分重疊度高的ROI,再用上述方法選取硬例。
實施技能:
在本文中,作者將這種方法應用到當前的Fsat R-CNN目標檢測方法中。最簡單的方法就是改變損失函數層。損失函數層首先計算所有感興趣區域的損失,然後根據損失對感興趣區域進行排序,選擇硬感興趣區域,使那些非感興趣區域的損失變為零。這種方法雖然簡單,但是效率非常低,因為還需要為所有ROI分配內存空間進行反向傳播。
為了克服這個缺點,作者對下圖1進行了改進,如下圖2所示。這種改進使用了相同RoI網絡的兩個副本。其中壹種是readonly,即只進行正向計算,不優化反向傳播,所以只需要為正向傳播分配內存,其參數保持與那個RoI網絡(實時的正則RoI網絡)相同。在每次叠代中,通過使用只讀RoI網絡來計算每個ROI的損失,然後通過使用上述選擇硬ROI的方法來選擇硬ROI。然後,使用規則RoI網絡向前和向後計算選定的硬RoI,以優化網絡。
本文主題:密集目標檢測中的聚焦損失。
在論文的修改中,作者認為樣本類別的不平衡可以歸結為困難和困難樣本的不平衡,從而改變交叉熵損失函數,賦予樣本不同的權重。在之前的模型中,這些樣本同樣重要,這使得模型訓練更加註重硬例子。
首先介紹交叉熵的公式:
其中,代表真實類別和我們預測的概率。為方便起見,我們定義如下:
因此,當方法較大時,損失是較小的數量級,如下圖連線所示,由於存在大量容易分類的樣本,添加後會淹沒正樣本的損失。
解決類別不平衡的常用方法是引入壹個加權因子來表示正樣本的權重和負樣本的權重。我們根據定義方法重新定義as,定義如下:
雖然正負的重要性可以平衡,但還是無法區分易/難樣本。焦點損失通過交叉損失達到區分簡單/困難樣品的目的:
上圖顯示了不同值對應的損失。通過分析上述公式,我們發現當樣本很小時,即樣本被錯誤分類,接近1時,損失幾乎不受影響;當接近1時,即樣本分類正確,接近0,降低了樣本的權重。比如取了,樣品的損耗會減少65430。
在實際應用中,作者使用了焦損的壹個變體,即增加了壹個平衡因子:
作者指出,對於二元分類,壹般模型的模型初始化會以相同的概率對待正負樣本,負樣本的丟失會因為類別的不平衡而占主導地位。作者提出了“先驗”的概念來估計訓練初期正樣本的概率,並用它來表示正樣本的輸出概率較低,如0.01,使模型更加關註正樣本。實際中,給定用於分類的最後壹個卷積層,其他卷積層的參數初始化為bias,而實驗中最後壹層設置為0.01。
兩個實現細節
論文題目:梯度和諧單級檢測器
該論文提出焦點損失有兩個缺點:
本文有壹句話概括了本文的核心思想:類別的不平衡可以歸結為難、難樣本的不平衡,難、難樣本的不平衡可以歸結為梯度的不平衡。原話如下:
如下圖所示:
左邊是樣本數量相對於梯度的分布,中間是每個修改函數(使用對數標度)相對於原始梯度的梯度,右邊是所有樣本集的梯度貢獻的分布。
定義是sigmoid之前的模型的輸出,則損失函數對的梯度如下獲得:
將梯度的模長(範數)定義為:
訓練樣本的梯度密度定義如下:
其中,是第k個樣本的梯度範數,
這個公式可以理解為以梯度為中心,寬度為的區域內的樣本密度。
梯度密度協調參數:
分母是歸壹化梯度在範圍內的壹些樣本。如果所有樣本的梯度在時間上均勻分布,那麽它們都在那裏。
通過梯度密度協調參數將GHM嵌入損失函數,GHM-C損失為:
計算公式11時,和有壹個n,再次計算時會遍歷所有樣本,所以公式的時間復雜度為。如果並行化,每個計算單元也有n的計算量,排序梯度範數的最佳算法復雜度是,然後用壹個隊列掃描樣本得到梯度密度的時間復雜度是n,基於排序的方法即使並行也不能快速計算,因為n往往是偶數,還是很耗時的。
作者提出的近似解決方案如下:
根據上述定義,近似梯度密度函數如下:
用上面的公式,因為可以提前找到,所以總結的時候只需要查壹下,所以時間復雜度為。
因為損失的計算是基於梯度密度函數,而梯度密度函數是根據壹批中的數據得到的,所以壹批的統計結果是有噪聲的。和批量歸壹化壹樣,作者使用了表達式移動平均來解決這個問題,即
模型魚的炮檢距定義為,真實炮檢距定義為,回歸損失采用平滑L1損失:
在…之中
那麽梯度大約是:
從公式中可以看出,在對樣本進行運算時,所有樣本都具有相同的梯度1,這使得依靠梯度範數無法區分不同的樣本。直接用壹個簡單的替代方法作為度量,但是價值理論上是無限的,無法實現。
為了將GHM應用於回歸損失,作者修改了原始損失函數:
這個函數的和也有類似的性質。當d的絕對值較小時,近似於L2損耗,當d的絕對值較大時,近似於L1損耗。d的梯度為:
這將漸變值限制為
定義,那麽GHM-R損失就是:
主題:物體探測中的主要樣本註意
PISA方法不同於焦損失和GHM。焦損失和GHM用損失來衡量樣本的難度,而本文作者用mAP法來衡量樣本的難度。
作者提出修改論文的方法,考慮兩個方面:
主要樣本是指那些對檢測性能有很大影響的樣本。作者的研究表明,壹個樣本的重要性取決於它和地面真相的IoU值,因此作者提出了IOU-HLR排名。
目標檢測中如何定義真陽性樣本?
其余的被標記為陰性樣品。
mAP的原理揭示了對目標檢測器更重要的兩個標準:
基於以上分析,作者提出了壹種叫做IoU-HLR的排序方法,既反映了局部IoU關系(圍繞每個地面真值目標),又反映了全局IoU關系(覆蓋整幅圖像或少量圖像)。值得註意的是,與回歸前的包圍盒坐標不同,IoU-HLR是根據樣本的最終定位位置計算的,因為mAP是根據回歸後的樣本位置計算的。
這種排序方法的壹般流程如下圖所示,其原理如下:
IoU-HLR遵循上述兩個標準。首先,它通過局部排序將每個個體GT的對應樣本中IoU較高的樣本放在前面(上面的步驟2),然後通過重采樣和排序將不同GT的對應樣本中IoU較高的樣本放在前面(步驟3和4)。
作者提出了壹種簡單有效的抽樣策略&素樣本註意,它將更多的註意力集中在素樣本上。PISA由兩部分組成:基於重要性的樣本重新加權(ISR)和分類感知回歸損失(CARL)。
PISA的訓練過程基於優質樣本,而不是平等對待所有樣本。
作者提出了壹種基於軟采樣的方法:基於重要性的樣本重新加權(ISR ),根據不同樣本的重要性賦予不同的權重。首先,它將Iou-HLR排序轉換為線性映射的真實值。IoU-HLR在每個類中單獨計算。對於類,假設總有* * *個樣本,用IoU-HLR表示。其中,用壹個線性轉換函數將樣本轉換成,它代表了類中第壹個樣本的重要性:
北京第壹部分以指數函數的形式,將樣本的重要性轉化為損失的權重,表示優先考慮重要樣本的程度因子,決定最小樣本權重的偏差(感覺是決定最小權重的變量)。
根據上面獲得的權重值,重寫交叉熵:
其中n和m分別代表真樣本和負樣本的個數,分別代表預測得分和分類目標,需要註意的是,如果簡單地加入損失權重,損失的值會發生變化,正負樣本的比例也會發生變化,所以為了保持正樣本的總損失值不變,作者將其歸壹化為
(這裏我不是很懂,歡迎解惑)
5.3.1已經介紹了如何染色壹個分類器知道素數樣本,那麽如何通過回歸使其知道素數樣本。作者提出了分類感知回歸損失(Carl)來聯合優化分類器和回歸其兩個分支。卡爾可以提高主樣本的分數,同時抑制其他樣本的分數。回歸的質量決定了樣本的重要性,我們期望分類器對重要的樣本輸出更高的分數。這兩個分支的優化應該是相互關聯的,而不是獨立的。
作者的方法是讓回歸者知道分類器的分數,這樣梯度就可以從回歸者擴散到階段它的分支。公式如下:
指示相應類別的預測分數和輸出的回歸偏移量。用指數函數換算成,然後根據所有樣本的平均值換算。為了保持損失尺度不變,對有分類感知的進行歸壹化。常用的是平滑L1損耗。
的梯度與原始回歸損失成比例。P _ i \ mathcal {l} (d _ i,\ hat d _ i) \ mathcal {l} (d _ i,\ hat d _ i) $反映了樣本I的定位質量,因此可以看作是對IoU的估計,進壹步可以看作是對IoU-HLR的估計。可以近似認為,排名靠前的樣本回歸損失較低,因此分類得分的梯度較小。對於卡爾,分類分支由回歸損失監督。不重要樣本的分值被大大抑制,而對重要樣本的關註度被加強。
未完待續。。。
上述方法大致可分為兩種:
焦損認為正負樣本的不均衡本質上是因為困難樣本的不均衡,所以訓練過程通過修改交叉熵更加關註那些困難樣本。在焦損失的基礎上,GHM繼續研究,發現困難樣本的不平衡本質上是由於梯度範數分布的不平衡。與焦損最大的區別在於,GHM認為最難的樣本應該被視為異常樣本,讓檢測器強行擬合異常樣本對訓練過程沒有幫助。而PISA則跳出了焦損的思想,認為采樣策略應該從mAP的索引出發,通過IOU層次局部秩(IOU-HLR)對樣本進行排序,重新校準權重,這樣可以提高召回率和精度。