當前位置:吉日网官网 - 傳統節日 - OCR的OCR

OCR的OCR

光學字符識別是指通過圖像處理和模式識別技術來識別光學字符,是自動識別技術研究和應用的壹個重要方面。它是壹種能自動識別字符並將其輸入計算機的軟件技術,是與掃描儀配套的主要軟件。屬於非鍵盤輸入範疇,需要圖像輸入設備的配合,主要是掃描儀。

目前OCR主要指[1]字符識別軟件。在1996紫光開始配中文識別軟件之前,市面上的掃描儀和OCR軟件壹直是分開賣的,專業的OCR軟件更早就比掃描儀貴。隨著掃描儀分辨率的提高,OCR軟件也在不斷升級,現在掃描儀廠商已經有專業的OCR軟件搭配自己的掃描儀銷售。OCR技術的快速發展與掃描儀的廣泛使用密切相關。近兩年來,隨著掃描儀的逐漸普及和OCR技術的提高,OCR已經成為大多數掃描儀用戶的得力助手。自20世紀60年代初第壹代OCR產品出現以來,經過半個世紀的不斷發展和完善,包括手寫在內的各種OCR技術的研究取得了令人矚目的成就。OCR產品的功能需求也從關註識別率轉變為對識別速度、用戶友好界面、操作簡單性、產品穩定性、適應性、可靠性和易升級性、售前售後服務質量提出更高的要求。

OCR的概念最早是由德國科學家Tausheck在1929年提出的,後來美國科學家Handel也提出了用技術來識別字符的思想。凱西和納吉是第壹個研究印刷體漢字識別的人。1966年,他們發表了第壹篇關於漢字識別的文章,用模板匹配法識別了1000個印刷體漢字。

早在六七十年代,世界各國就開始研究OCR。在研究之初,大多集中在字符識別的方法上,識別的字符只是0到9的數字。以同樣有框符的日本為例,OCR的基本識別理論是在1960左右開始研究的。最開始是以數字為對象,直到1965到1970之間,開始出現壹些簡單的產品,比如印刷體文字的郵政編碼識別系統,識別郵件上的郵政編碼,幫助郵局做區域信件分發。所以郵政編碼壹直是各國提倡的地址書寫方式。

20世紀70年代初,日本學者開始研究漢字識別,並做了大量工作。我國對OCR技術的研究工作起步較晚,從20世紀70年代開始研究數字、英文字母和符號的識別。70年代末開始研究漢字的識別。到1986,對漢字識別的研究進入實質性階段,許多研究機構相繼推出中文OCR產品。早期的OCR軟件由於識別率、產品化等多種因素,無法滿足實際需求。同時,由於硬件設備成本高,運行速度慢,還沒有達到實用化水平。只有少數部門如信息部和新聞出版單位使用OCR軟件。1986之後,我國的OCR研究取得了很大進展,在漢字建模和識別方法上有所創新,在系統開發和應用方面取得了豐碩的成果。許多單位相繼推出中文OCR產品。20世紀90年代以來,隨著我國平臺掃描儀的廣泛應用和信息自動化、辦公自動化的普及,OCR技術得到了極大的推動,OCR的識別精度和速度已經滿足了用戶的要求。由於掃描儀的普及和廣泛應用,OCR軟件只需要提供壹個與掃描儀的接口,使用掃描儀驅動軟件。因此,OCR軟件主要由四部分組成:圖像處理模塊、版面分割模塊、文本識別模塊和文本編輯模塊。

1,圖像處理模塊

圖像處理模塊主要具有文檔掃描、圖像縮放和圖像旋轉功能。原稿經掃描儀輸入後,形成圖像文件,圖像處理模塊可以將圖像放大,去除汙漬和劃痕。如果圖像放置不正確,可以手動或自動旋轉圖像,以便為字符識別創造更好的條件,使識別率更高。

2.布局分割模塊

版面劃分模塊主要包括版面劃分和變化劃分,即理解版面、分詞、規範化等。您可以選擇自動或手動布局分割方法。目的是告訴OCR軟件分離文章、表格等。以便可以分別處理它們並按什麽順序進行識別。

3.字符識別模塊

字符識別模塊是OCR軟件的核心部分。字符識別模塊主要是讀取輸入的漢字,但是壹只眼睛讀不了多少行,必須壹行壹行的切。對於漢字,通常是逐字識別,也就是單詞識別,然後歸壹化。字符識別模塊通過提取漢字不同樣本的特征來完成識別,自動發現可疑詞,並具有前後聯想功能。

4.文本編輯模塊

文本編輯模塊主要對OCR識別的文本進行修改和編輯。如果系統識別出有錯誤,文本將以醒目的紅色或藍色顯示,並提供類似文本供選擇,選擇壹個編輯器輸出。壹個OCR識別系統的目的很簡單,就是對圖像進行變換,讓圖像中的圖形繼續保留,表格中的數據和圖像中的字符都變成計算機字符,這樣可以減少圖像數據的存儲,識別出的字符可以重復使用和分析,當然也可以節省鍵盤輸入的人力和時間。

從圖像到結果輸出,要經過圖像輸入、圖像預處理、文本特征提取、比較識別,最後通過人工校正糾正錯別字,輸出結果。

1圖像輸入

要進行OCR處理的主題必須通過光學儀器(如圖像掃描儀、傳真機或任何照相設備)傳輸到計算機。隨著科技的進步,掃描儀等輸入設備已經做得越來越精致,輕薄短小,質量高,這對OCR有很大的幫助。掃描儀的分辨率使圖像更清晰,掃頻速度提高了OCR處理的效率。

下載:塔伊比科技光學OCR圖像預處理:圖像預處理是OCR系統中最需要解決的模塊。從獲得非黑非白的二值圖像或者灰度彩色圖像到獨立產生文本圖像的過程屬於圖像預處理。包括圖像歸壹化、去噪、圖像校正等圖像處理,以及圖形分析、文本行和文字分離等文件預處理。在圖像處理方面,在理論和技術上已經到了成熟的階段,所以市面上或者網站上有很多的鏈接庫可以使用;在文檔的預處理上,要看各個技能;圖像首先要把圖片、表格和文字區域分開,甚至要區分文章的排版方向、輪廓和正文,文字的大小和字體才能判斷為原始文檔。

字符特征提取:單就識別率而言,特征提取可以說是OCR的核心。什麽特征以及如何提取特征直接影響識別的質量,所以在OCR研究的前期,有很多關於特征提取的研究報告。特征可以說是識別的籌碼,簡單的區分可以分為兩類:壹類是統計特征,比如壹個文本區域的黑/白點比例。當文本被分成幾個區域後,每個區域的黑/白點比例的組合就變成了空間的壹個數值向量,基本的數學理論就足夠比較了。另壹類特征是結構特征,如文本圖像細化後獲得筆畫端點和單詞交叉點的數量和位置,或者用特殊的比較方法與筆畫段進行比較。市面上的在線手寫輸入軟件的識別方法大多是基於這種結構方法。

對比數據庫:計算輸入字符的特征後,無論是使用統計特征還是結構特征,都必須有壹個對比數據庫或特征數據庫進行對比。數據庫的內容應包括所有待識別的字符集,以及通過與輸入字符相同的特征提取方法獲得的特征組。

2對比識別

這是壹個可以充分發揮數學運算理論的模塊。根據不同的特點,選擇不同的數學距離函數。比較著名的方法有歐氏空間比較法、松弛比較法和動態規劃法(DP)。以及類神經網絡數據庫、hmm(隱馬爾可夫模型)等著名方法的建立和比較。為了使識別結果更加穩定,也有人提出了所謂的專家系統,利用各種特征比較方法的差異性和互補性,使識別結果具有特別高的置信度。

文字後期處理:由於OCR的識別率無法達到100%,或者為了加強比對的正確性和置信度值,壹些調試甚至幫助糾錯的功能就成為了OCR系統中必不可少的模塊。單詞後處理就是壹個例子,利用比較後的識別單詞和它們可能相似的候選單詞,根據前後識別的單詞找出最符合邏輯的單詞並進行修正。

詞庫:為文字後處理而建立的詞庫。

3手動校正

在最後壹級OCR之前,用戶可能只是拿著鼠標,跟著軟件設計的節奏或者只是看,可能需要用戶的精神和時間來糾正甚至找出可能是OCR錯誤的地方。壹個好的OCR軟件不僅有穩定的圖像處理和識別核心來降低錯誤率,而且人工校正的操作流程和功能影響著OCR的處理效率。因此,文字圖像與識別字符的比較,其屏幕信息的位置,每個識別字符的候選字符功能,拒絕識別字符的功能,以及可能有問題的文字都在文字後處理後特別標註。都是為了用戶盡量少用鍵盤而設計的。當然並不是說系統不顯示的文字就壹定正確,就像完全靠鍵盤輸入的五線譜也會出錯壹樣。這時候就完全看用戶的需求了。

4結果輸出

有的人只希望文本文件作為文本的壹部分被重用,所以只要壹般的文本文件,有的人希望和輸入文件壹模壹樣,所以有再現原文的功能,有的人註重表格中的文本,所以要結合Excel等軟件。無論如何變化,都只是輸出文件格式的變化。如果需要恢復成和原文壹樣的格式,識別後需要人工排版,費時費力。1數據輸入

文件材料的數字輸入壹般分為:

1.純圖像模式。

2.目錄文本,正文圖像模式。

3.全文模式。

4.全文索引方法。文本模式和圖像模式的混合。

2識別過程

圖書水平:中文、英文;簡體,繁體;

布局層次:縱橫;是否有列;

行分割詞分割

識別:真正的OCR識別過程,圖像信息還原為文本信息。

後期處理:人工幹預,主要集中在前四個階段。

3鑒定結果的決定因素

1.畫質壹般建議150dpi以上。

2.顏色。壹般顏色識別差,黑白圖片高。因此,建議ocr使用黑白tif格式。

3.最重要的是字體。如果是筆跡,識別率很低。

中國簡體OCR識別的錯誤率是萬分之三。如果需要更高的精度,就需要更多的人工幹預。繁體字識別困難是因為繁體字庫不壹致(民國時的字體庫和現在的繁體字庫不壹致)。人工幹預下,準確率可達90%以上(圖文清晰的情況下)。1.分辨率設置是字符識別的重要前提。壹般來說,掃描儀提供的圖像信息更多,識別軟件很容易得到識別結果。但是並不是掃描分辨率設置得越高,識別精度就越高。選擇300dpi或400dpi分辨率,適合掃描大部分文檔。註意對原文的掃描識別,在設置掃描分辨率時不要超過掃描儀的光學分辨率,否則得不償失。以下是壹些典型的設置,僅供參考。

(1)1,2,3,推薦200dpi。

(2)4、5號小的段落建議300dpl。

(3)編號小的5、6段建議400dpl。

(4)7、8號段建議使用600dpi。

2.掃描時適當調整亮度和對比度值,使掃描的文件成為黑白。這是識別率的關鍵,掃描亮度和對比度值的設置是基於觀察掃描圖像中漢字的細筆畫但不停止的原理。在識別之前,先看看掃描圖像中文字的質量。如果圖像中有黑點或黑點或者字的線條又粗又暗,筆畫分不清,說明亮度值太小,應該增加亮度值再試壹次。如果圖像中的文字線條凹凸不平、斷裂甚至漢字輪廓嚴重不完整,說明亮度值過大,應降低亮度後再試。

3.選擇掃描軟件。選擇壹款好的適合自己的OCR軟件是做好字符識別的基礎。通常,不應使用掃描儀附帶的OEM軟件。OEM OCR軟件功能少,效果差,有的甚至沒有中文識別。

選擇另壹個圖像軟件。首先,OCR軟件不能識別所有的掃描儀。第二點,也是最重要的壹點,影像軟件的掃描界面掃描出來的影像很容易處理。

4.如果文本要格式化,如加粗、傾斜、首行縮進等。,有些OCR軟件會識別不出來,格式會丟失或亂碼。如果您必須掃描格式化文本,請確保您使用的識別軟件預先支持文本格式掃描。您還可以關閉模式識別系統,這樣軟件就可以集中精力查找正確的字符,而不用考慮字體和字體格式。

5.在掃描識別報紙或其他半透明稿件時,背面的字符會透過紙張混淆字體,對識別造成很大障礙。這種掃描的話,貼在掃描稿的背面就可以了。掃描時蓋上壹張黑紙,增加掃描對比度,可以減少背面模糊字體的影響,提高識別準確率。

6.壹般文字掃描稿都是黑白的,但是在進行掃描設置時往往會將掃描模式設置為灰色模式。尤其是原稿質量較差時,采用灰度模式掃描,掃描軟件處理後繼續識別,可以獲得較好的識別準確率。值得註意的是,OCR識別軟件可以自行確定閾值,閾值相差幾個百分點就可能影響正常識別。當然,獲得的圖像文件的大小會比黑白文件大得多。在掃描大量稿件時,需要對稿件進行測試,尋找最佳閾值百分比。

7.當妳遇到圖文混排的掃描稿時,首先要確定使用的識別軟件是否支持自動分析圖文的功能。如果支持,OCR軟件將在這種掃描識別過程中自動計算文本的內容、位置和順序。根據標註順序可以正常識別文本部分。

8.手動選擇掃描區域會有更好的識別效果。設置好參數後,先進行預覽,然後開始選擇掃描區域。不要把文章選擇在壹個區域使用,因為為了追求更好的視覺效果,現在的文章排版更多的是采用圖文混排,掃描成壹張圖片會影響OCR識別。所以布局要根據實際情況分為n個區域。地區怎麽劃分?每個區域的文字字體和字號要壹致,不能有圖形和圖像,每行的寬度要壹致。長度不同的情況,要細分。壹般壹次最多可以掃描10個選區。根據不同情況,合理設置識別區域的順序。不要覺得這個過程太煩人,這是提高識別率的有效手段。請註意,識別區域之間不應有交叉,直到壹切都感覺完好無損時才進行識別。這樣壹般識別率會在95%以上。對識別錯誤的單詞進行校對後,可以進入相應的文字處理軟件進行所需的處理。

9.放置掃描稿時,掃描的文字材料必須放在掃描起始線的中央,以盡量減少光學鏡頭造成的失真。同時,應保護掃描儀玻璃免受損壞。文字傾斜壹定角度,或者原文排版不規則,掃描後必須用旋轉工具校正;否則OCR識別軟件會把橫筆畫當成斜筆畫,識別準確率會下降很多。建議用戶將掃描原稿盡量放直,使用工具旋轉校正會降低圖像質量,增加字符識別難度。

10.先預覽整個版面,選擇要掃描的區域,然後使用放大預覽工具,選擇壹小塊放大全屏顯示,觀察文字的對比度和深度濃度,根據情況調整閾值的大小。最後要求文字清晰,不粗(字簇)不淡(字截),壹般在80左右的閾值,然後掃描。

11.使用工具擦除圖像汙點,包括原版面中不需要識別的插圖和分隔線,使文字圖像中除了文字沒有多余的東西;這樣可以大大提高識別率,減少識別後的修改工作。

12.如果要掃描印刷質量稍差的文章,比如報紙,掃描結果不會是黑白的,會有很多黑點,字體的筆畫上也會有粘連。這兩項是漢字識別中的禁忌,會嚴重影響漢字識別的正確率。為了獲得更好的識別效果,需要仔細調整色調,反復掃描才能獲得理想的結果。另外,由於報紙很薄,大部分紙張質量不高,掃描儀上的蓋板不能完全壓住報紙(有縫隙),所以報紙的掃描識別效果壹般不如雜誌。解決辦法是在報紙上壓壹兩本16K的雜誌,效果還是不錯的。

  • 上一篇:Midjourney國風關鍵詞全攻略
  • 下一篇:型材門推薦,口碑好,型材門十大品牌介紹
  • copyright 2024吉日网官网