利用RGB圖像、RGB-D深度圖像和激光點雲,對三維空間中輸出物體類別、長度、寬度、高度和旋轉角度的檢測稱為3D物體檢測。
在無人駕駛、機器人和增強現實的應用場景中,普通的2D檢測無法提供感知環境所需的全部信息。2D檢測只能提供目標物體在2D圖像中的位置和相應類別的置信度。然而,在真實的3D世界中,所有物體都具有三維形狀,大多數應用程序都需要目標物體的長度、寬度、高度和偏轉角度等信息。比如下圖1,在自動駕駛場景中,需要從圖像中提供目標物體的三維尺寸和旋轉角度,鳥瞰圖中投射的信息對後續自動駕駛場景中的路徑規劃和控制起著至關重要的作用。
本文提出的3DOP是目前利用雙目攝像機實現3D包圍盒效果的壹種很好的方法,是快速RCNN方法在3D領域的擴展。因為原論文發表在NIPS15,所以快速RCNN的效果不如快速RCNN和基於回歸的方法,而且離實時性還很遠,所以處理壹張圖片需要4.0s。
它使用立體圖像對作為輸入來估計深度,並通過將圖像平面上的像素級坐標投影回三維空間來計算點雲。3DOP將候選區域生成問題定義為馬爾可夫隨機場(MRF)的能量最小化問題,涉及到設計良好的勢函數(如先驗目標尺寸、地平面、點雲密度等。).
在獲得3D對象的壹組不同候選幀的情況下,3DOP使用FastR-CNN[11]方案返回到目標位置。
本文主要基於對FCOS無錨2D目標檢測的改進。主幹網為DCN resnet 101,配備FPN架構,可探測不同規模的目標。網絡結構如圖1所示:
基於iou 3d,可以定義TP和FP。
通過繪制準確度×召回曲線(PRC ),曲線下的面積通常表示檢測機的性能。然而,在實際情況下,鋸齒形PRC對精確計算其面積提出了挑戰。KITTI采用AP@SN公制作為替代,直接規避了計算方法。
NuScenes由從1000個場景中收集的多模態數據組成,包括來自6個相機的RGB圖像,來自5個雷達的點,以及1個激光雷達。分為700/150/150場景進行訓練/驗證/測試。總共有來自10個類別的1.4M個帶註釋的3D邊界框。此外,nuScenes使用了不同的度量標準,基於距離的地圖和NDS,這可以從另壹個角度幫助評估我們的方法。