OCR(光學字符識別)是指電子設備(如掃描儀或數碼相機)檢查印在紙上的字符,通過檢測明暗圖案確定其形狀,然後通過字符識別將形狀翻譯成計算機字符的過程。
OCR是壹種通過光學手段將印刷字符轉換為黑白點陣圖像文件,並通過識別軟件將圖像中的字符轉換為文本格式,以供文字處理軟件進壹步編輯和處理的技術。
擴展數據:
壹個OCR識別系統的目的很簡單,就是對圖像進行變換,讓圖像中的圖形繼續保留,表格中的數據和圖像中的字符都變成計算機字符,這樣可以減少圖像數據的存儲,識別出的字符可以重復使用和分析,當然也可以節省鍵盤輸入的人力和時間。
從圖像到結果輸出,要經過圖像輸入、圖像預處理、文本特征提取、比較識別,最後通過人工校正糾正錯別字,輸出結果。