(壹)紙質文獻的數字化處理紙質文獻的數字化處理方法主要有兩種:直接掃描法和縮微法。1.直接掃描法所謂直接掃描法,是指用掃描儀對原始紙質文件進行光學掃描,將圖像信息傳輸到光電轉換器中變成模擬電信號,再將模擬電信號轉換成數字電信號,再通過計算機接口傳輸到計算機存儲器中。直接掃描可以分為兩種方式:(1)對紙質文件進行掃描後,利用字符識別(OCR)軟件對紙質文件進行識別,最終生成壹個文本文件。這種數字文件的優點是:占用空間小,便於計算機全文檢索,文件使用時便於提取和編輯。其缺點是:無法保留原始文檔的排版格式和簽名、印章等原始信息;有時候OCR字符識別的準確率低,檢查修改困難,數字化效率很低,實際上已經破壞了原始文件的真實性。(2)掃描紙質文件,形成數字圖像文件。這種圖像文件的優點是:能保持文件內容和排版的原貌,數字化速度快。缺點是:無法進行全文檢索,無法編輯文本內容,占用存儲空間大。以上兩種方法的優缺點正好互補。現在有壹種方法可以把兩種方法的優點結合到壹個文檔裏,就是做壹個雙層PDF。制作方法是:將原來的紙質文件掃描成數字圖像文件再轉換成文本文件,然後將兩個內容相同的文件放在同壹個PDF文件中,圖像文件在上層,文本文件隱藏在圖像文件的下層。在查詢這個文件時,我們不僅可以看到上層的原始圖像文件,還可以全文搜索隱藏的文本文件。2.縮微拍攝法所謂縮微膠片轉換法,是對已被縮微拍攝的文件,使用專用掃描設備(即縮微掃描儀),將縮微膠片上的模擬圖像轉換成數字圖像的方法。與直接掃描法相比,顯微掃描法更經濟、簡單、高效。但是,這種方法必須建立在紙質文檔的微處理基礎上。值得註意的是,縮微膠片掃描後,原件應與紙質檔案壹起保存,不允許擅自銷毀。這樣,文件就形成了“三集”的存儲狀態。盡管縮微膠片不如數字文件易於保存、復制、查詢和傳播,但作為模擬信息,縮微膠片文件具有數字文件所不具備的優點,如人類可讀性、穩定性好、體積小等,是紙質文件所不具備的,應該是檔案信息資源的重要補充形式。(二)紙質檔案的數字化工作流程紙質檔案的數字化是壹個復雜的過程,其基本環節主要包括:檔案整理、檔案掃描、圖像處理、圖像存儲、編目建庫、數據鏈接、數據驗收、數據備份和成果管理。紙質檔案掃描前,根據檔案管理情況,按照以下步驟對檔案進行妥善整理,並根據需要進行標記,以保證檔案的數字化質量。(1)文件交付壹般來說,對大量紙質文件進行數字化處理,要將待數字化的文件從文件倉庫搬到臨時周轉倉庫;然後,數字處理器從周轉倉庫接收文件並將其數字化。無論是前者還是後者,數字化處理人員都必須按預定計劃提出申請,經審批後,向雙方移交檔案,登記並完成交接手續。(2)目錄數據編制根據《檔案著錄規則》(DA/T18-1999)的要求,規範檔案的內容,包括確定檔案的著錄項目、字段長度和內容要求。然後,建立用於數字文件檢索的目錄數據庫。數據庫建設可以利用原有紙質檔案的編目基礎。如果原始紙質文件目錄存在錯誤或不規範,如標題、文件名、負責人、起止頁碼和頁數等。,應該修改。紙質檔案未建立機讀目錄數據庫的,應按檔案著錄規則重新錄入。(3)未綁定的文件可以在解除綁定前逐壹貼上條形碼,以便在後續過程中通過識別條形碼對掃描文件進行準確高效的控制。條形碼還可以為今後檔案借閱和利用的管理提供方便。然後,工作人員壹卷壹卷、壹頁壹頁地檢查檔案。對缺失內容、遺漏內容、顛倒頁碼和珍貴破損檔案進行登記,移交檔案保管機構妥善處理。對於未解除綁定會影響掃描工作的文件,應該解除綁定。拆除裝訂時,應註意保護文件不受損壞。拆除裝訂後,應將原始文件按順序排列,並用夾子夾住,以防散落。對於歷史悠久,紙質條件差,不方便拆封的,可以使用零頁邊距掃描儀進行掃描。(4)區分掃描件和非掃描件。根據要求,將同壹文件中的掃描件和非掃描件分開,剔除不相關和重復的文件。(5)切頁紙的質量與掃描儀的選擇和掃描效果有關。因此,破損嚴重、褶皺不平、字跡模糊的檔案必須單獨登記。比如折疊的文件可以熨燙;對於被汙染的紙張,可以在通風的環境下用軟刷輕輕刷掉漂浮的灰塵、汙垢或黴菌;必須修復損壞和不完整的文檔。(六)歸檔登記:將整理後的原始文件交給掃描儀,制作並填寫紙質文件數字化處理登記表,詳細記錄每份文件整理後的起始頁碼和頁碼。(七)裝訂、修復和歸還掃描工作完成後,被拆除的檔案應按檔案保管要求重新裝訂。恢復裝訂時,要註意保持文件的排列順序不變,做到安全、準確、無遺漏。更換嚴重損壞的滾筒和盒子。裝訂機會在裝訂好的文件上加蓋專用印章和專用數碼印章。文件的數字處理和重新裝訂完成後,應進行清點。清點無誤後,交回檔案管理部門,辦理檔案歸還手續。2.文件掃描(1)掃描設備的選擇取決於文件格式的大小(A4、A3、A0等。),選擇相應規格的掃描儀。大幅面文件可以用寬幅掃描儀掃描,縮微後用膠片數字轉換裝置掃描,小幅面掃描後用圖像拼接。紙張狀況不好、太薄、太軟或太厚的文檔,以及多色頁面的文檔都可以用普通平板掃描儀掃描。紙張條件好的A4、A3文件可以用高速掃描儀掃描,提高工作效率。不適合解包的文件可以用零邊距掃描儀掃描。(2)掃描彩色模式的選擇壹般有兩種掃描彩色模式:壹種是掃描形成黑白二值圖像。這種圖像只有黑白兩級,沒有過渡灰度。其特點是黑白分明,字跡清晰,文件容量小。它適用於掃描筆跡和線條清晰的文本或圖形文件。二是掃描形成連續色調的靜態圖像。這類圖像分為灰度圖像和彩色圖像。灰度圖像由從最暗的黑色到最亮的白色的不同灰度組成。灰度表示圖像從亮到暗的等級,也稱為色階。灰度越高,層次越豐富,文件容量越大。灰色模式適合掃描黑白照片和圖像文件,色階的選擇要適中,只要不影響畫質即可。顏色模式中的顏色數量表示顏色的範圍。顏色越多,圖像越生動逼真,文件容量越大。同樣,色號的選擇也要適度,不是越多越好。彩色模式適用於掃描文件或頁面上帶有紅色標題和印章的彩色照片文件。需要永久保存或長期保存,或移交國家檔案館的檔案,壹般應采用彩色模式掃描。(3)掃描分辨率掃描分辨率參數的選擇原則上是基於掃描圖像的清晰度和完整性,不會影響圖像的利用效果。在黑白二進制、灰度和彩色模式下掃描文件時,分辨率壹般建議大於或等於200dpi。特殊情況下,比如文字小,文字密,清晰度差。分辨率可以適當提高。對於需要OCR漢字識別的文檔,掃描分辨率建議選擇300dpi。(4)光學字符識別處理目前OCR技術已經相當成熟,壹般掃描儀都有自己的OCR軟件,使用起來也非常方便。但是OCR的識別準確率往往不盡如人意,影響檢索效果。手動修改稿件中的錯別字很麻煩。因此,提高OCR識別率是檔案數字化中的壹個重要問題。其實只要註意以下幾點,就可以明顯提高OCR識別率:第壹,選擇合適的掃描分辨率。過低的掃描分辨率往往會導致OCR識別率下降,過高的分辨率則會使圖像文件過大,降低識別速度。在實踐中,操作員可以通過查看OCR識別後生成的文本中紅色錯別字的數量(如小於3%)來判斷可接受性,並決定是否以此分辨率掃描進行OCR識別。二是盡可能黑白二進制模式掃描。用掃描儀掃描文檔時,OCR通常接受灰色或黑白二進制模式,不接受彩色模式。如果稿件印刷質量好,可采用灰色模式,否則應采用黑白二進制模式。掃描時,您可以手動調整黑白閾值的大小。如果黑白二值圖像上的文字輪廓不完整,適當增加閾值。如果文本的輪廓太粗,說明信息冗余較多,可以適當降低閾值。這樣調整後形成的黑白二值掃描圖像可以達到更好的OCR識別效果。第三,在進行OCR識別時註意字符的傾斜校正。OCR識別允許文檔稍微傾斜,但是過度傾斜會影響識別率。校正方法是在掃描軟件上點擊傾斜校正按鈕,識別軟件會在OCR識別前自動校正圖像。四是手稿鑒定前的預處理。去除稿件中的雜物和圖片,因為雜物會幹擾文字識別,圖片識別不出來,影響OCR的文字分割。對於稿件中的欄目,建議手動設置欄目區域,即用多個方框選擇要識別的字符,然後進行OCR識別。第五,采用合適的識別方法。簡體和繁體稿件混雜,中英文稿件識別率往往較低。如果將簡體和繁體中英文分塊分布,可以通過圖像處理軟件將不同的文本塊編輯成文本塊相似的文件,然後通過OCR分別識別不同的字符。(5)掃描登記:認真填寫紙質文件數字化轉換流程交接登記表,登記掃描頁數,核對每份文件的實際掃描頁數與歸檔時填寫的文件數量是否壹致。如有不壹致,應註明具體原因和處理方法。3.圖像處理掃描完成後,獲得的圖像必須按要求進行技術處理,以糾正掃描文件與原始文件之間的偏差,使掃描文件更清晰、更規範。圖像處理壹般包括以下內容:(1)圖像數據質量檢查檢查圖像的歪斜、銳度和失真情況。如果發現不符合質量要求,應對圖像進行重新處理。當掃描的圖像文件不完整或因操作不當無法清晰識別時,應重新掃描;掃描件如有遺漏,及時補掃描件,正確插入圖像;當發現掃描圖像的排列順序與原始文件不壹致時,應及時調整。認真填寫相關表格,記錄質量檢查結果和處理意見。(2)校正應該校正偏轉圖像,使得在視覺上感覺不到偏轉。方向不正確的圖片要旋轉還原,符合閱讀習慣。(3)去除影響圖像質量的黑點、黑線、黑框、黑邊等雜質。在處理過程中,應註意不要破壞文件的原始信息。(4)對不同區域的大幅面文件掃描形成的多幅圖像應進行拼接合並成壹幅完整的圖像,以保證文件數字圖像的完整性。(5)對裁切顏色模式下的掃描圖像進行裁切,去除多余的白邊,有效減少圖像文件的容量,節省存儲空間。以上整改、去汙、整理等處理都可以根據肉眼手動完成。也可以使用專門設計的軟件,提前做壹定的設置,然後電腦會自動處理。計算機處理當然效率高,但不如手工處理靈活。比如,壹旦汙漬的大小被設計得太小,電腦會自動把壹些標點符號作為汙漬去掉。因此,掃描圖像的處理也需要人工和自動處理相結合。4.圖像存儲(1)存儲格式以黑白二進制模式掃描的圖像文件通常以TIFF(G4)格式存儲。以灰色模式和彩色模式掃描的圖像文件通常以JPEG格式存儲。存儲時壓縮比的選擇應以保證掃描圖像可讀性的前提下最小化存儲容量為基礎。提供網絡查詢的掃描圖像,也可以存儲為CEB,PDF或其他文件。(2)圖像文件的命名數字文件資源應以文件號或唯壹標識符命名。如果數字檔案資源以檔案號命名並按卷排序,則應按照《檔案號編制規則》(DA/T 13-1994)編制檔案號,建議增加檔案類別代碼作為類別號的子項;若按檔案排序,檔案編號可采用“全宗號-檔案類別代碼年份-保管期限-機構(問題)代碼-檔案號-件號”的結構。5.目錄數據庫構建(1)數據格式選擇目錄數據庫構建應選擇通用的數據格式,選擇的數據格式應能通過XML文檔直接或間接交換數據。這個數據庫的建立可以通過專門的檔案管理系統或者掃描管理軟件錄入,也可以通過EXCEL專門設計的檔案目錄表,然後將數據導入檔案管理系統。(2)檔案著錄根據《檔案著錄規則》(DA/T18-1999)的要求,建立檔案目錄數據庫,錄入檔案目錄數據。(3)目錄數據質量檢查為保證數據的準確性,可采用“單機錄入-人工校對”或“雙機錄入-計算機自動校對”的方法。無論是人工校對還是計算機校對,都需要檢查描述條目是否完整,描述內容是否規範準確。如果發現不合格的數據,應修改或重新記錄。6.數據鉤子(1)匯總鏈接文件數字化轉換過程中形成的編目數據庫和圖像文件,通過質量檢查後,通過網絡及時加載到數據服務器進行匯總。目錄數據庫和鏡像文件要避免緩慢易錯的手動掛接,盡量批量使用計算機自動掛接。只要根據紙質文件的文件號對掃描的數字文件進行命名,就可以通過編寫掛鉤程序或借助相應的軟件,實現相關數字圖像的自動搜索和相應電子地址信息的添加,從而實現批量、快速掛鉤。(2)數據關聯基於紙質文件目錄數據庫,從每個紙質文件掃描的壹個或多個圖像存儲為圖像文件。在相應的文件夾中存儲圖像文件時,需要仔細檢查每個圖像文件的名稱是否與存檔目錄數據庫中的文件號相同,圖像文件的頁數是否與存檔目錄數據庫中的頁數相同,圖像文件的總數是否與存檔目錄數據庫中的頁數相同。利用每個圖像文件的文件名與該文件在歸檔目錄數據庫中的文件號建立壹壹對應關系,為歸檔目錄數據庫與圖像文件的自動批量連接提供了條件。(3)交接登記認真填寫紙質文件數字化轉換過程交接登記表,記錄數據關聯後的頁數,檢查每次文件關聯後的頁數與文件整理掃描時填寫的頁數是否壹致。如有不壹致,應註明具體原因和處理方法。7.數據驗收檢查所有采樣和數字化數據的整體質量,包括目錄數據庫、圖像文件和數據鏈接。當目錄數據庫與圖像文件之間的鏈接出現錯誤,或者目錄數據庫與圖像文件中有壹個不完整、不清楚或有錯誤時,抽查將被標記為“不合格”。當數字轉換質量抽樣合格率達到95%以上(含95%)時,全宗文件將被視為“通過”。合格率=通過抽樣檢查的單據數/通過抽樣檢查的單據總數×100%。認真填寫紙質檔案數字化驗收登記表。“通過”驗收的結論必須經過審核簽字才能生效。8.數據備份完整,合格的數據應及時備份。為保證數據安全,備份載體的選擇應多樣化,可采用線上線下相結合的方式實現多套備份,並註意遠程存儲。妳還應該檢查備份數據。備份數據的檢查內容主要包括備份數據是否可以打開,數據信息是否完整,文件數量是否準確。數據備份後,應在相應的備份介質上進行標記,以便於查找和管理。填寫紙質文件數字備份管理登記表。9.數字成果管理應加強紙質檔案數字成果的管理,確保其安全性、完整性和長期可用性。提供紙質檔案數字化成果在線檢索利用時,應有制作單位的電子標識,並根據具體情況采用可下載或不可下載的數據格式。
上一篇:社區活動主題策劃方案下一篇:中國從古至今的詩人都有哪些?現代詩人有哪些?