OCR全稱是光學字符識別,是目前最常用、最高效的文本掃描技術。它可以識別和提取圖片或PDF中的文本內容,輸出文本文檔,方便地驗證用戶信息,或者直接編輯內容。
典型的OCR技術路線分為五大步驟,即輸入、圖像處理、文本檢測、文本識別、輸出。每壹個流程都需要算法的深度配合,所以從技術底層,從圖片到文字輸出,都要經過壹些流程。
Ocr技術流程
圖像輸入,讀取不同圖像格式的文件。
圖像預處理主要包括圖像二值化、去噪、傾斜校正等。
版面分析,把文檔圖片分成段落和線條。
字符切割,處理單純因為字符粘連、斷筆而難以切割字符的問題。
字符特征提取,從字符圖像中提取多維特征。
字符識別:對當前字符提取的特征向量和特征模板庫進行模板粗分類和模板精匹配,識別字符。
頁面恢復:對原文檔的排版進行識別,並將識別結果按照原排版格式輸出到文本文檔中。
後處理校正,根據特定語言語境的關系對識別結果進行校正。