當前位置:吉日网官网 - 紀念幣收藏 - 雙層PDF在地質數據數字化中的應用

雙層PDF在地質數據數字化中的應用

郭惠金賈馬國鋒菲菲張茜

(國家地質檔案館)

在闡述雙層PDF和OCR技術的特點和應用前景的基礎上,探討了地質數據數字圖形數據雙層PDF轉換的意義。提出了轉換方法的選擇,並詳細介紹了OCR數字處理系統和提高識別率的方法。最後,提出了雙層PDF在地質檔案建設中的意義。

雙層PDF;OCR;識別率

目前,地質資料收集機構正在加緊數字化工作。截至2013年底,已有20多個省級檔案館完成館藏數字化,國家地質檔案館地質資料數字化工作接近尾聲。形成的海量數據成為地質數據信息社會化服務的重要數據資源。這類數字數據是靜態的,有利於閱讀和使用,但無法全文檢索,不利於進壹步分析和處理。因此,在現有數據的基礎上,進行OCR識別,將其轉化為雙PDF文件,實現由靜態到動態的轉變,建立全文數據庫,完成地質數據全文信息的檢索,成為推動數據數字化的地質數據采集機構。

1關於雙層PDF和OCR技術

雙層PDF是OCR識別在掃描數據的基礎上生成的可搜索的PDF文件,即上層是原始圖像,下層是識別結果,位置壹壹對應。雙層PDF文件不僅可以100%保留原版面效果,還支持選擇、復制、檢索等功能。這樣的PDF文件最終可以存儲在光盤、硬盤或磁盤陣列中,通過建立索引數據庫進行科學管理。

OCR(Optical Character Recognition)即光學字符識別,是指電子設備(如掃描儀或數碼相機)檢查印在紙上的字符,通過檢測明暗圖案確定其形狀,然後通過字符識別將形狀翻譯成計算機字符的過程。即掃描文本數據,然後分析圖像文件以獲得文本和布局信息的過程。隨著計算機網絡的飛速發展,信息電子化已成為時代的必然趨勢。作為信息最重要、最集中的載體,電子寫作的過程尤為重要。OCR技術是電子書寫過程中最重要的環節,它改變了傳統的紙介質數據輸入的觀念。通過OCR技術,用戶可以將通過相機、掃描儀等光學輸入方式獲得的報紙、書籍、手稿、表格等印刷品的圖像信息轉換為計算機可以識別和處理的文本信息。因此,與傳統的手工輸入法相比,OCR技術大大提高了數據存儲、檢索和處理的效率。

2應用狀態

PDF廣泛應用於世界各國政府、金融、法律、工程技術、醫療等諸多部門,已經成為政府、學術部門等單位的標準現代公文格式規範,因此PDF電子格式文檔將是未來檔案部門的主體。雙層PDF的出現有效解決了識別成本和閱讀利用率之間的矛盾,是壹種很有潛力的資源格式。OCR技術在國外的應用已經比較成熟,包括IBM、摩托羅拉、惠普和微軟等世界範圍內的公司都相繼開展了這方面的研究,並將OCR技術綁定到自己的產品中。

如今,OCR技術在中國也得到廣泛應用。信息檢索技術研究,即雙層PDF檢索技術研究,中國“863”項目已於2008年前開始對中文OCR、自動分詞、自動摘要、自動搜索、自動定位進行統壹測試評估。在此基礎上,我國逐步建立了數字圖書館、數字檔案館、數字報刊、數字校園網等壹系列基於數字化的實施案例,如新聞出版總署、外交部、團中央的文獻全文數據庫等。《中國青年》75年和《新華文摘》20年全文數據庫。早在1999,國家圖書館就成立了“國家圖書館文獻數字化中心”,對各類館藏文獻進行數字化處理和鑒定。在此基礎上,形成了書目書庫、書目數據庫、全文數據庫三大類,逐步成為我國網上信息資源的中心樞紐。

隨著我國信息化建設的全面普及,OCR技術的應用前景更加廣闊。數字圖書館、數字檔案館、數字檔案館的概念也使得OCR在紙質檔案的數字化中發揮著越來越獨特的作用,既節省了人力物力,又最大限度地發揮了檔案信息資源的利用價值,能夠更好地為人民服務。

3數字數據兩層PDF轉換的意義

3.1是地質信息化建設的重要內容。

隨著社會信息化程度的提高,人們對信息資源的依賴程度越來越高,對檔案資源進行高效管理、檢索和利用的需求也越來越迫切。數字化是信息化建設的重要內容,信息化建設的核心是資源建設。資源建設包括三大任務:壹是紙質資料的掃描數字化和目錄數據庫建設;二是電子文件的歸檔和管理;三是全文數據庫和全文檢索系統的建設。根據各檔案館數字化工作的進展,考慮到用戶的利用需求,要想獲得真實文本形式的電子信息,使數據數字化工作更加有效和徹底,最大限度地提高用戶的利用率,需要應用OCR技術對掃描光柵文件進行雙層PDF轉換,進而進行地質數據的全文數據庫建設和全文檢索。

3.2是地質資料全文檢索和全文數據庫建設的前提。

實踐證明,基於雙層PDF文檔的全文檢索有效提高了查詢利用效率。通過對歸檔數據庫的數據和雙層PDF文檔的文本層進行索引,可以在不訪問數據庫的情況下,有效減輕數據庫和系統的壓力。可支持至少10萬數據、毫秒級查詢時間和每秒數千人並發訪問,從而達到大容量、高速度的目標,並可適配Linux和Windows平臺,支持各種數據庫接口。它具有通用搜索引擎的結構和功能,能夠對用戶的輸入進行分段,能夠進行多關鍵詞搜索和關鍵詞組合搜索,人性化;同時可以根據客戶需求挖掘用戶數據,提高檔案全文檢索系統的價值。

3.3是現代數據中心標準化的前提。

建設現代化的數據中心,首先要規範電子文件的存儲結構,即建立壹種通用的、廣泛使用的電子文件信息存儲和交換格式。PDF格式作為電子文件管理中電子文件長期保存的最新標準,已在國際上全面推行,具有兼容性強、原始記錄性強、安全控制策略完善等優勢,是電子文件長期保存的最佳選擇。因此,將館藏數字數據轉換成PDF格式勢在必行。

4雙層PDF轉換方法

4.1當前常見的兩層PDF轉換方法

目前國內雙層PDF的轉換技術已經比較成熟。從現有的技術條件來看,大致可以分為以下三種:

4.1.1軟件轉換

Adobe Acrobat、ABBYY FineReader12(中英文識別)、Readiris Corporate 12(英文識別率高)、Foxit Phantom 5(文字層可單獨顯示)、清華文同TH-OCR XP8(識別率高)、漢王文本網5800(版面識別好,純中文識別率高)、尚書七號OCR等轉換程序OCR識別後可直接生成雙層PDF文件,快速高效。但識別率與原始紙質材料(如印刷方式、清晰度、紙張質量等)成正比。)和操作人員的技術水平。紙質原件質量好的,識別率比較高;質量差的話識別率比較低。

4.1.2流程處理

根據相關技術要求,對圖像進行全新的OCR識別流程處理,重新生成PDF文件,具有文本準確率高、文本定位準確的特點。這種方式相當於雙層PDF文件的全流程制作,工作量大,耗時長,成本高。

4.1.3識別重建

重新生成PDF文件,實現版面字體、字號、顏色的恢復重建。文字正確率高,頁面清晰,但和原圖差別較大,主要用在書上。

4.2地質數據的雙層PDF轉換

2011,國家館在掃描數字化的基礎上,開始進行雙層PDF的轉換實驗。第壹種方法主要用於軟件轉換,即軟件自動OCR處理後直接形成雙層PDF文件。由於地質資料不同於普通文檔文件,紙張樣式和打印方式多樣,手寫、舊料多,地層、數學等特殊符號多,給OCR自動識別帶來困難。單壹軟件識別無法滿足全文檢索90%以上識別率的要求。

在轉換測試的基礎上,我們得到以下結論:

1)地質數據本身是多樣的,實際識別率主要受打印質量、地層年代等因素影響,而舊數據和紙質差的數據識別率普遍較低;受書寫者書寫習慣和書寫清晰度的影響,手寫文檔的識別準確率壹般在30%以下;油印文件的識別準確率壹般在50%以下;印刷、鉛印、膠印文檔的識別率比較高,壹般達到90%以上。無論哪種文檔,標點符號的識別率都很低,地層、數學符號等特殊符號的識別率幾乎為零。

2)目前識別技術還達不到100%,初始識別結果必須根據實際需要對紙質文件進行人工校對,才能滿足全文檢索的要求。

3)掃描的地質數據文件數量多,容量大,轉換速度受計算機反應速度的影響。需要選擇高配置的電腦進行大規模的轉換和識別,批量轉換和人工識別耗時耗力,需要專項資金支持工作。

4.3 OCR數字處理系統的介紹和功能

在比較了目前國內的雙層PDF轉換方法後,結合地質數據的復雜特點和數據測試結果的研究,建議地質數據的雙層PDF轉換主要采用軟件識別和流程處理相結合的方法,即OCR數字處理系統能夠保證雙層PDF轉換的高效率和高質量。該系統主要包括以下主要流程:

圖1 OCR數字處理系統示意圖

1)圖像處理。為了提高識別率,對圖像進行“去藍去汙”處理,去除凹坑、下劃線等影響識別率的噪聲,圖像處理質量由圖像質量控制程序自動監控。

2)布局分析。自動理解並定位版面,判斷邊框區域是橫向文本區域、縱向文本區域、表格區域還是圖像區域,用不同顏色的線框識別不同屬性的區域。自動布局分析在後臺運行,操作人員可以在前臺確認,必要時可以對自動布局分析的結果添加人工幹預。

3)認可度。通過將文本圖像轉換成計算機文本內碼,可以識別印刷和手寫的中文(包括簡繁體)、中英文混合字符和表格,識別的文本內碼可以是GB碼、BIG5碼、GBK碼或Unicode碼。識別過程在後臺運行。

4)垂直校對。它具有很強的檢錯糾錯能力,即將壹幅或多幅圖像中被識別為同壹個單詞的文本圖像顯示在壹起,並用突出的顏色標註可疑單詞,便於操作人員發現錯誤並進行修改。

5)橫向校對。它是壹種傳統的人工校對方法,操作人員直接將識別結果文本與圖像進行對比,找出識別錯誤文本。系統自動調出與文本相對應的圖像進行比較。同時,用醒目的顏色標明文字的識別可信度。

6)布局復原。將識別和修改後的文本恢復為與掃描稿版面相同的RTF、PDF、HTML、SGML/XML格式的數字文檔,並能被計算機讀取和搜索。

7)數據倉庫。利用版面復原保存數字文獻。

4.4提高OCR識別率的方法

OCR數字處理系統生成的雙層PDF,文本層錯誤率最低,為萬分之壹,能夠呈現原始的底紋和顏色特征,可用於全文檢索和復制,檢索信息能夠準確定位字符,便於快速找到目標信息。為了減少橫向校對即人工校對的工作量,提高工作效率,需要從根本上提高識別率。經過實驗,以下方法可以提高光柵文件的OCR識別率。

1)圖像顏色設置。雖然灰度或彩色模式可以最大程度的還原紙質材料的原貌,是我們掃描數字化的首選,但是這兩種彩色模式會增加影響識別率的背景噪聲。如果只做文字識別和壹般的黑白插圖選擇,建議可以將掃描程序的圖像顏色設置為黑白,以增加識別率。但最終的圖像顏色設置要根據各種具體作業的規範要求來設置。

2)分辨率設置。我們都知道掃描分辨率設置越低,掃描速度越快,但也導致圖像質量差,字符識別準確率低。反之,分辨率高,掃描速度慢,但字符識別準確率高。但這也不是絕對的,因為分辨率設置過高後,紙張上微小的瑕疵也可能被當成標點符號或漢字,字符識別的準確率會降低。經過反復測試,分辨率設置為300dpi,這是掃描速度和字符識別準確率的最佳平衡。

3)圖像處理。這裏的圖像處理是指在掃描輸出圖像之前的傾斜校正和去汙染。傾斜校正是調整文字的方向,使其正向,可以幫助OCR識別。

雙層PDF轉換完成後,可以將數據管理系統與PDF文件鏈接起來,將數據內容、元數據等相關信息鏈接起來,形成壹個數據包。然後通過調用全文數據庫的原始數據創建索引文件,最終實現全文檢索。通過全文數據庫和全文檢索的實現,獲得了較高的查全率和查準率,大大提高了地質數據的利用價值,促進了地質數據的編研,為地質數據信息聚合的研究和深度服務奠定了基礎。

參考

[1]許。OCR技術在檔案數字化過程中的應用[J].檔案管理,2011(1)。

[2]許·。OCR技術在檔案數字化過程中的應用[J].藝術與技術,2011(2)。

張軒。OCR技術的研究進展與展望[J].科學技術,2010(4)。

[4]郭·。雙層PDF技術及其在檔案數字化中的應用[J].新觀察,2013(1)。

[5]劉·。文件存儲格式和PDF文檔[J].檔案研究,2002(2)。

  • 上一篇:北齊畫家楊子驊擅長畫人物、宮殿、車馬。
  • 下一篇:各位,請給我講講第四十五回西遊記的生動內容!急用!謝謝!
  • copyright 2024吉日网官网