OCR(光學字符識別)是模式識別(PR)的壹個主題。它的目的是讓計算機知道它看到了什麽,尤其是文字材料。
由於OCR是壹項與識別率拔河的技術,如何調試或利用輔助信息來提高識別率是OCR最重要的課題,ICR(intelligent character recognition,智能字符識別)壹詞由此產生。根據文字材料存在的介質不同,以及獲取這些材料的方式不同,衍生出各種應用。
下面是OCR的基本介紹,包括它的技術介紹和它的應用。
壹.光學字符識別的發展
要說OCR的發展,早在60、70年代,世界各國就開始研究OCR。在研究的初期,大部分集中在字符識別的方法上,識別的字符只是從0到9的數字。以同樣有框符的日本為例,OCR的基本識別理論是在1960左右開始研究的。最開始是以數字為對象,直到1965到1970之間,開始出現壹些簡單的產品,比如印刷體文字的郵政編碼識別系統,識別郵件上的郵政編碼,幫助郵局做區域信件分發。所以郵政編碼壹直是各國提倡的地址書寫方式。
OCR可以說是壹個不確定的技術研究。正確率就像壹個無限逼近的函數。如果我們知道它的逼近值,我們就只能逼近它,而不能達到它。我們永遠是100%在戰鬥。因為涉及的因素太多了,書寫者的習慣或者文件的打印質量,掃描儀的掃描質量,鑒別方法,研究測試的樣本等等。,都會影響其準確性。因此,OCR產品需要壹個強大的識別核心,而操作和使用的便利性,產品提供的調試功能和方法也是決定產品質量的重要因素。
壹個OCR識別系統的目的很簡單,就是對圖像進行變換,讓圖像中的圖形繼續保留,表格中的數據和圖像中的字符都變成計算機字符,這樣可以減少圖像數據的存儲,識別出的字符可以重復使用和分析,當然也可以節省鍵盤輸入的人力和時間。
從圖像到結果輸出,要經過圖像輸入、圖像預處理、文本特征提取、比較識別,最後通過人工校正糾正錯別字,輸出結果。
這裏壹壹介紹:
圖像輸入:要進行OCR處理的主題必須通過光學儀器,如圖像掃描儀、傳真機或任何照相設備,傳輸到計算機。隨著科技的進步,掃描儀等輸入設備變得越來越精致,輕薄短小,質量高,這對OCR有很大的幫助。掃描儀的分辨率使圖像更清晰,掃頻速度更快,提高了OCR處理的效率。
圖像預處理:圖像預處理是OCR系統中需要解決最多問題的模塊。從獲得非黑非白的二值圖像或者灰度彩色圖像到獨立產生文本圖像的過程屬於圖像預處理。包括圖像歸壹化、去噪、圖像校正等圖像處理,以及圖形分析、文本行和文字分離等文件預處理。在圖像處理方面,在理論和技術上已經到了成熟的階段,所以市面上或者網站上有很多的鏈接庫可以使用;在文檔的預處理上,要看各個技能;圖像首先要把圖片、表格和文字區域分開,甚至要區分文章的排版方向、主題和內容主題,文字的大小和字體才能判斷為原始文檔。
字符特征提取:單就識別率而言,特征提取可以說是OCR的核心。什麽特征以及如何提取特征直接影響識別的質量,所以在OCR研究的前期,有很多關於特征提取的研究報告。特征可以說是識別的籌碼,簡單的區分可以分為兩類:壹類是統計特征,比如壹個文本區域的黑/白點比例。當文本被分成幾個區域後,每個區域的黑/白點比例的組合就變成了空間的壹個數值向量,基本的數學理論就足夠比較了。另壹類特征是結構特征,如文本圖像細化後獲得筆畫端點和單詞交叉點的數量和位置,或者用特殊的比較方法與筆畫段進行比較。市面上的在線手寫輸入軟件的識別方法大多是基於這種結構方法。
對比數據庫:計算輸入字符的特征後,無論是使用統計特征還是結構特征,都必須有壹個對比數據庫或特征數據庫進行對比。數據庫的內容應包括所有待識別的字符集,以及通過與輸入字符相同的特征提取方法獲得的特征組。
對比識別:這是壹個可以充分發揮數學運算理論的模塊。根據不同的特點,選擇不同的數學距離函數。著名的比較方法有:歐洲空間比較法、松弛法、動態規劃法(DP)以及建立和比較類神經網絡數據庫、hmm(隱馬爾可夫模型)等著名方法。為了使識別結果更加穩定,也有人提出了所謂的專家系統,利用各種特征比較方法的差異性和互補性,使識別結果具有特別高的置信度。
文字後期處理:由於OCR的識別率無法達到100%,或者為了加強比對的正確性和置信度值,壹些調試甚至幫助糾錯的功能就成為了OCR系統中必不可少的模塊。單詞後處理就是壹個例子,利用比較後的識別單詞和它們可能相似的候選單詞,根據前後識別的單詞找出最符合邏輯的單詞並進行修正。
詞庫:為文字後處理而建立的詞庫。
手動校正:OCR的最後壹關。在此之前,用戶可能只是拿著鼠標,跟著軟件設計的節奏走,或者只是觀看。在這裏,可能需要用戶的精神和時間來糾正甚至找出OCR可能存在的問題。壹個好的OCR軟件不僅有穩定的圖像處理和識別核心來降低錯誤率,而且人工校正的操作流程和功能影響著OCR的處理效率。因此,文字圖像與識別字符的比較,其屏幕信息的位置,每個識別字符的候選字符功能,拒絕識別字符的功能,以及可能有問題的文字都在文字後處理後特別標註。都是為了用戶盡量少用鍵盤而設計的。當然並不是說系統不顯示的文字就壹定正確,就像完全靠鍵盤輸入的五線譜也會出錯壹樣。這時候就完全看用戶的需求了。
結果輸出:其實輸出是很簡單的事情,但是要看用戶用OCR做什麽。有的人只希望文本文件作為文本的壹部分被重用,所以只要壹般的文本文件,有的人希望和輸入文件壹模壹樣,所以有再現原文的功能,有的人註重表格中的文本,所以要結合Excel等軟件。無論如何變化,都只是輸出文件格式的變化。
補充:不用當然可以刪除!