街景字符編碼識別是壹個光學字符識別(Optical Character Recognition, OCR)問題,OCR指對文本資料的圖像文件進行分析識別,獲取文字及版面信息的過程。即將圖像中的文字進行識別,並以文本的形式返回。
典型的OCR問題解決思路是 圖像預處理-檢測文字區域-文本識別 ,其中影響識別準確率的技術瓶頸是文字檢測和文本識別,而這兩部分也是OCR技術的重中之重。模糊、扭曲、畸變、復雜背景和光線不清等圖像問題也是影響識別準確度的因素。
文本檢測識別問題與圖像物體檢測的思路較為相似,但也有壹些區別,因此直接應用經典圖像物體檢測模型做識別可能需要做壹些改進(如針對文本特征的proposal生成)來進壹步適配任務。
文本檢測識別問題與圖像物體檢測的區別
很多文本檢測模型是基於經典物體檢測模型如Faster-RCNN,YOLO等進行改進的,圖文識別任務中充當特征提取模塊的基礎網絡,常來源於通用場景的圖像分類模型VGGNet,ResNet、InceptionNet、DenseNet等。
對於不定長字符識別問題,目前的基於神經網絡的工作使用CNN+RNN+CTC或CNN+RNN+attention的方式解決,其中RNN可引入上下文關聯信息。
下面將介紹壹些經典的文本檢測模型。
CTPN是目前流傳最廣、影響最大的開源文本檢測模型。文本行被看成壹個字符sequence,用細粒度的proposal定位文本,而不是壹般物體檢測中單個獨立的目標。
它用VGG16模型進行特征提取,在特征圖上生成anchor,生成的anchor輸入BLSTM+全連接層壓縮特征,全連接層特征輸入到三個分類或者回歸層中,得到bounding box位置和anchor的類別信息。
CRNN基於CNN+RNN實現特征提取和分類,最後采用聯結時序分類(Connectionist Temporal Classification, CTC)來處理序列不定長的問題。
由於SVHN數據集中識別對象是門牌字符,因此扭曲和畸變較少,數據相對簡單壹些,但部分圖仍有場景其他字符幹擾。
當我們將SVHN的不定長字符識別問題用填充方法“補成”定長問題來解決時,就免去了CTC解碼的步驟。同時由於街景門牌識別不需要上下文信息,RNN模塊也不是必須的,可用CNN+Softmax初步進行分類識別,再根據出現的問題改進。