OCR是英文光學字符識別的縮寫。翻譯成中文就是用光學技術識別文字,這是自動識別技術研究和應用的壹個重要方面。它是壹種能自動識別字符並將其輸入計算機的軟件技術,是與掃描儀配套的主要軟件。屬於非鍵盤輸入範疇,需要圖像輸入設備的配合,主要是掃描儀。目前OCR主要指字符識別軟件。在1996紫光開始匹配中文識別軟件之前,市面上的掃描儀和OCR軟件壹直是分開賣的。專業的OCR軟件“漢字識別軟件”?懸在空中?青蛙k寡婦學校?妳欠致遠真奶嗎?CR軟件也在不斷升級,掃描儀廠商現在已經銷售專業的OCR軟件,自帶掃描儀。OCR技術的快速發展與掃描儀的廣泛使用密切相關。近兩年來,隨著掃描儀的逐漸普及和OCR技術的提高,OCR已經成為大多數掃描儀用戶的得力助手。
壹、OCR技術的發展
自20世紀60年代初第壹代OCR產品出現以來,經過30多年的不斷發展和完善,包括手寫在內的各種OCR技術的研究取得了令人矚目的成就。OCR產品的功能需求也從關註識別率轉變為對識別速度、用戶友好界面、操作簡單性、產品穩定性、適應性、可靠性和易升級性、售前售後服務質量提出更高的要求。
第壹個OCR產品是由IBM開發的。1965年,IBM-IBML 287的OCR產品在紐約世博會展出。當時這個產品只能識別印刷的數字,英文字母和壹些符號,而且必須是指定字體。20世紀60年代末,日立和富士通也開發了自己的OCR產品。世界上第壹個實現手寫郵政編碼識別的自動信件分揀系統是由日本東芝公司開發的,兩年後NEC公司也推出了同樣的系統。到1974,信件自動分揀率達到92%左右,在郵政系統得到廣泛應用,發揮了良好作用。在1983中,日本東芝公司發布了其OCRV595,這是壹種用於識別印刷日語字符的OCR系統。識別速度為每秒70 ~ 100個漢字,識別率為99.5%。後來,東芝公司開始了手寫日本漢字識別的研究工作。
我國對OCR技術的研究起步較晚,70年代開始研究數字、英文字母和符號的識別技術,70年代末開始研究漢字的識別。從65438到0986,信息領域的國家863計劃組織清華大學、北京信息職業技術學院、沈陽自動化學院共同開發中文OCR軟件。到1989,清華大學率先推出國內第壹套中文OCR軟件——清華文同TH-OCR1.0,中文OCR正式從實驗室走向市場。清華OCR印刷體漢字識別軟件後來又推出了TH-OCR 92高性能實用簡體/繁體、多字體、多功能印刷體漢字識別系統,使印刷體漢字識別技術有了很大的進步。1994推出的高性能中英文混排印刷體文字識別系統TH-OCR 94,被專家評價為“國內外首款推出的中英文混排印刷體文字識別系統,總體處於國際領先水平”。20世紀90年代中後期,清華大學電子工程系提出並開展了漢字識別的綜合研究,在印刷體文字、聯機手寫漢字識別、脫機手寫漢字識別、脫機手寫數字符號識別等領域取得了重要成果。代表成果是TH-OCR 97集成漢字識別系統,可以完成多種語言(中文、英文、日文)的印刷文本、聯機手寫漢字、脫機手寫漢字、手寫數字的識別和輸入。近年來,除了清華文同TH-OCR,其他風格各異的OCR軟件如尚書SH-OCR也相繼問世,中文OCR市場穩步擴大,用戶遍布全球。
可以說印刷體OCR的識別技術已經達到了很高的水平。OCR產品已經從早期只能識別指定的印刷數字、英文字母和部分符號,發展成為壹種功能強大的計算機信息快速錄入工具,能夠自動分析版面和識別表格,實現混合字符、多種字體、多種字號和縱橫混排的識別。打印漢字識別率在98%以上,甚至打印質量差的字識別率也在95%以上。可以識別宋體、黑體、楷體、仿宋體等多種字體的簡繁體,可以識別多種字體、不同字號的混合排版,手寫漢字識別率超過70%。特別是經過十幾年的努力,我國的漢字OCR技術克服了起步晚、漢字集龐大的困難,文字識別速度(指單位時間內從特征提取到識別結果輸出的字數)可以達到70字/秒以上。由於印刷體OCR漢字識別技術成熟,OCR產品廣泛應用於新聞、印刷、出版、圖書館、辦公自動化等行業。
專業OCR產品多面向特定行業,即適用於每天需要處理大量表單信息輸入的部門,如郵政、稅務、海關、統計等。這種針對特定行業的專業OCR系統,格式相對固定,字符集相對較小,經常與專用輸入設備結合使用,因此具有速度快、效率高的特點,比如郵件自動分揀系統。
手寫手稿識別產品是1996和1997才出來的,是作為印刷手稿識別產品的附加功能提供的。由於人的書寫習慣差異很大,實現自由手寫識別的難度相當大。因此,手寫OCR技術的應用領域是在線手寫識別,即人書寫,計算機識別,這是壹種實時識別的方法。
二、OCR的基本原理
簡單來說,OCR的基本原理就是通過掃描儀將手稿的圖像輸入電腦,然後電腦取出每個字符的圖像,轉換成漢字的代碼。其具體工作過程是掃描儀通過電荷耦合器件CCD將漢字手稿的光信號轉換成電信號,再通過模/數轉換器轉換成數字信號傳輸到計算機。計算機接受手稿的數字圖像,圖像上的漢字可能是印刷體漢字,也可能是手寫體漢字,然後識別這些圖像中的漢字。對於印刷字符,首先通過光學手段將文檔數據轉換為原始的黑白點陣圖像文件,然後通過識別軟件將圖像中的字符轉換為文本格式,供文字處理軟件進壹步處理。其中,字符識別是OCR的壹項重要技術。
1.OCR識別的兩種方式
和其他信息數據壹樣,計算機中所有掃描儀捕捉到的圖形信息都是用0和1兩個數字來記錄和識別的,所有的信息只是用0和1保存的壹系列點或樣本點。OCR識別程序主要通過細胞模式匹配和特征提取來識別頁面上的字符信息。
模式匹配就是用標準字體和字體大小位圖,把每個字符和文件進行松散的比較。如果應用程序中有壹個保存字符的大型數據庫,應用程序將選擇適當的字符進行正確匹配。軟件必須使用壹些處理技術來找到最相似的匹配,通常是通過不斷嘗試同壹字符的不同版本來進行比較。壹些軟件可以掃描壹頁文字,識別出每壹個定義新字體的字符。有些軟件利用自己的識別技術,盡可能地識別頁面上的字符,然後手動選擇或者直接輸入無法識別的字符。
特征提取是將每個字符分解成許多不同的字符特征,包括對角線、水平線和曲線。然後,將這些特征與理解(識別)的字符進行匹配。舉個簡單的例子,如果壹個應用程序識別出兩條水平線,它會“認為”這個字符可能是“二”。特征提取法的優點是可以識別多種字體。比如中國書法,就是通過特征提取的方法實現的。
大多數OCR應用程序都增加了語法智能檢查功能,進壹步提高了識別率。它主要通過上下文檢查來糾正拼寫和語法。在字符識別中,OCR應用會做很多上下文銜接檢查,根據程序中已有的短語和固定的語序,對應檢查字符串的單詞。更高級的應用軟件會自動用它“認為”的單詞替換錯誤的單詞,以糾正句子的意思。
2.字符識別的幾個步驟
字符識別包括以下步驟:圖形輸入、預處理、單詞識別和後處理。
(1)圖形輸入
它是指通過輸入設備將壹份文件輸入計算機,也就是將手稿數字化。現在廣泛使用的設備是掃描儀。文檔圖像的掃描質量是OCR軟件正確識別的先決條件。正確選擇掃描分辨率和相關參數是保證字符清晰和不丟失特征的關鍵。此外,應盡可能正確放置文檔,以確保預處理檢測的傾斜角度較小,傾斜校正後文本圖像的變形較小。這些簡單的操作將提高系統的識別精度。另壹方面,由於掃描設置不當,斷筆過多可能會分離出壹半的文字圖像。由於斷筆和筆畫粘連,某些特征會丟失。將特征與特征庫進行對比時,特征距離會增大,識別錯誤率會增加。
(2)預處理
掃描壹張簡單打印文檔的圖像,整理出每個字符圖像,交給識別模塊進行識別,這個過程稱為圖像預處理。預處理是指字符識別前的壹些準備工作,包括圖像凈化,去除原始圖像中明顯的噪聲(幹擾)。主要任務是測量文檔的傾斜角度,分析文檔的布局,確認所選文本域的布局,在水平和垂直布局中分割文本行,分離每行中的文本圖像,區分標點符號。這個階段的工作非常重要,處理的效果直接影響到字符識別的準確率。
版面分析是對文本圖像的整體分析,是對文檔中的所有文本塊進行梳理,區分文本段落和排版順序,以及圖像和表格的區域。每個文本塊的域邊界(域在圖像中的起點和終點的坐標)、域中的屬性(水平和垂直布局)以及每個文本塊的連接關系作為數據結構提供給識別模塊進行自動識別。文本區域直接識別,表格區域專門分析識別,圖像區域壓縮或簡單存儲。行字分割是首先將大圖像切割成行,然後從圖像行中分離出單個字符的過程。
(3)單詞識別
單字識別是OCR字符識別的核心技術。讓計算機“認字”,也就是所謂的識別技術,把從掃描文本中檢測出來的文本圖像的圖形、圖像轉換成文本的標準代碼,是關鍵。就像人腦認識單詞是因為保存了單詞的各種特征,比如單詞的結構,單詞的筆畫。為了讓計算機識別字符,首先需要將字符等信息存儲在計算機中,但是存儲什麽信息以及如何獲取是壹個非常復雜的過程,需要達到非常高的識別率才能滿足要求。通常的做法是根據字符的筆畫、特征點、投影信息和點的區域分布來分析字符。
中國常用的漢字有幾千個,識別技術就是特征比對技術。通過與識別特征庫的比對,找到特征最相似的詞,提取該詞的標準碼,即為識別結果。比較是人們認識事物的壹種基本方式,漢字識別也是通過比較找出漢字之間的相同點、相似點和不同點,把握數量和質量的關系,以及時間和空間的關系。對於字符集較大的漢字,壹般采用多層次分類、多特征、全方位動態匹配來尋找相似集,以保證分類率高、適應性強、穩定性好;細分類的重點是相似度匹配、加權處理、結構判別、定量定性分析,以及前後連接詞的關系,最後是判別。漢字識別本質上是比較科學或認知科學在人工智能中的應用,其關鍵技術是識別特征庫。只有有了這樣的特征庫,計算機才能完成單詞識別的功能。
在圖像文檔的布局中,不僅有文字和圖片,有時還有表格。為了將識別出的表格數字化,需要在版面分析過程中對表格字段進行特殊處理,包括提取表格行的結構信息,對表格中的文本字段進行排序,識別表格行和文本字段,根據表格行的數字化生成不同的文件格式。由於文檔中的表格是任意的、多樣的、封閉的和開放的,尤其是表格中的斜線,很難對表格進行分析。
(4)後處理
後處理是指將識別出的單詞或多個識別結果以短語的形式上下匹配,即將單詞識別的結果進行切分,並與詞庫中的短語進行比較,從而提高系統的識別率,降低誤識別率。
漢字識別是字符識別領域中最困難的問題,涉及模式識別、圖像處理、數字信號處理、自然語言理解、人工智能、模糊數學、信息論、計算機、中文信息處理等學科,是壹項綜合性技術。近年來,印刷體漢字識別系統的正確識別率已經超過95%。為了進壹步提高系統的整體識別率,對掃描圖像、圖像預處理和後識別技術也進行了深入的研究,並取得了長足的進步,有效地提高了印刷體漢字識別系統的整體性能。清華大學在這壹領域取得了卓越的成就,成為世界上最權威的機構之壹。目前,紫光的所有掃描儀都配備了清華OCR千年版軟件,在識別率、表格識別甚至是規範的手寫識別上都達到了很高的水平。
三、OCR文本識別技巧
近年來,隨著掃描儀的普及,OCR識別技術發展迅速,掃描識別軟件的性能不斷加強,向智能化升級。但想要快速得到正確的掃描結果,獲得高效的文字輸入,就必須認真學習相關知識,結合實踐經驗,摸索出屬於自己的全套解決方案。有時候我們做字符識別,識別率很低,達不到軟件說的95%以上。請先不要責怪硬件或者軟件。其實這就是我們還沒有掌握掃描和OCR識別技能的原因。
以下是字符識別操作中常用的壹些方法和技巧。
1.分辨率設置是字符識別的重要前提。壹般來說,掃描儀提供的圖像信息更多,識別軟件很容易得到識別結果。但是並不是掃描分辨率設置得越高,識別精度就越高。選擇300dpi或400dpi分辨率,適合掃描大部分文檔。註意對原文的掃描識別,在設置掃描分辨率時不要超過掃描儀的光學分辨率,否則得不償失。以下是壹些典型的設置,僅供參考。
(1)1,2,3,推薦200dpi。
(2)4、5號小的段落建議300dpl。
(3)編號小的5、6段建議400dpl。
(4)7、8號段建議使用600dpi。
2.掃描時適當調整亮度和對比度值,使掃描的文件成為黑白。這是識別率的關鍵,掃描亮度和對比度值的設置是基於觀察掃描圖像中漢字的細筆畫但不停止的原理。在識別之前,先看看掃描圖像中文字的質量。如果圖像中有黑點或黑點或者字的線條又粗又暗,筆畫分不清,說明亮度值太小,應該增加亮度值再試壹次。如果圖像中的文字線條凹凸不平、斷裂甚至漢字輪廓嚴重不完整,說明亮度值過大,應降低亮度後再試。
3.選擇掃描軟件。選擇壹款好的適合自己的OCR軟件是做好文字識別的基礎。通常,您不應該使用掃描儀附帶的OEM軟件。OEM的OCR軟件功能少,效果差,有的甚至沒有中文識別。經過對比,我認為紫光OCR2003專業版和尚書OCR6.0文本自動識別輸入系統的識別能力和使用功能更為突出。選擇另壹個圖像軟件。OCR軟件沒有掃描界面嗎?為什麽要找圖像軟件?第壹,OCR軟件無法識別所有掃描儀;第二,也是最重要的壹點,影像軟件的掃描界面掃描出來的影像容易處理;壹般選擇PHOTOSHOP。
4.如果文本要格式化,如加粗、傾斜、首行縮進等。,有些OCR軟件會識別不出來,格式會丟失或亂碼。如果您必須掃描格式化文本,請確保您使用的識別軟件預先支持文本格式掃描。您還可以關閉模式識別系統,這樣軟件就可以集中精力查找正確的字符,而不用考慮字體和字體格式。
參考:/question/27443880.html?fr=qrl3