街景字符編碼識別-字符識別模型

街景字符編碼識別是壹個光學字符識別（Optical Character Recognition, OCR）問題，OCR指對文本資料的圖像文件進行分析識別，獲取文字及版面信息的過程。即將圖像中的文字進行識別，並以文本的形式返回。

典型的OCR問題解決思路是 圖像預處理-檢測文字區域-文本識別 ，其中影響識別準確率的技術瓶頸是文字檢測和文本識別，而這兩部分也是OCR技術的重中之重。模糊、扭曲、畸變、復雜背景和光線不清等圖像問題也是影響識別準確度的因素。

文本檢測識別問題與圖像物體檢測的思路較為相似，但也有壹些區別，因此直接應用經典圖像物體檢測模型做識別可能需要做壹些改進（如針對文本特征的proposal生成）來進壹步適配任務。

文本檢測識別問題與圖像物體檢測的區別

很多文本檢測模型是基於經典物體檢測模型如Faster-RCNN，YOLO等進行改進的，圖文識別任務中充當特征提取模塊的基礎網絡，常來源於通用場景的圖像分類模型VGGNet，ResNet、InceptionNet、DenseNet等。

對於不定長字符識別問題，目前的基於神經網絡的工作使用CNN+RNN+CTC或CNN+RNN+attention的方式解決，其中RNN可引入上下文關聯信息。

下面將介紹壹些經典的文本檢測模型。

CTPN是目前流傳最廣、影響最大的開源文本檢測模型。文本行被看成壹個字符sequence，用細粒度的proposal定位文本，而不是壹般物體檢測中單個獨立的目標。

它用VGG16模型進行特征提取，在特征圖上生成anchor，生成的anchor輸入BLSTM+全連接層壓縮特征，全連接層特征輸入到三個分類或者回歸層中，得到bounding box位置和anchor的類別信息。

CRNN基於CNN+RNN實現特征提取和分類，最後采用聯結時序分類(Connectionist Temporal Classification, CTC)來處理序列不定長的問題。

由於SVHN數據集中識別對象是門牌字符，因此扭曲和畸變較少，數據相對簡單壹些，但部分圖仍有場景其他字符幹擾。

當我們將SVHN的不定長字符識別問題用填充方法“補成”定長問題來解決時，就免去了CTC解碼的步驟。同時由於街景門牌識別不需要上下文信息，RNN模塊也不是必須的，可用CNN+Softmax初步進行分類識別，再根據出現的問題改進。