美 国 一 级 A 片/午夜免费视频/久久riav/国产人妖 视频专区 - 1024亚洲精品国产

檔案之窗

掃一掃關注

當前位置: 首頁 » 技術 » 檔案論文 » 論文欣賞 » 正文

談紙質檔案全文數字化存貯格式

放大字體  縮小字體 發布日期:2018-11-15 11:37:05    來源:網絡    瀏覽次數:569    評論:0
導讀

摘 要 當前紙質檔案數字化工作中的“瓶頸”問題是全文數字化工作,而全文數字化的存貯格式問題又決定檔案全文數字化工程的效率和成敗。本文通過對常用存貯格式存貯空間、通用性、字符識別、操作技術的難易程度、最大限度降低費用等問題進行探討,選擇適合當

摘  要   當前紙質檔案數字化工作中的“瓶頸”問題是全文數字化工作,而全文數字化的存貯格式問題又決定檔案全文數字化工程的效率和成敗。本文通過對常用存貯格式存貯空間、通用性、字符識別、操作技術的難易程度、最大限度降低費用等問題進行探討,選擇適合當前檔案部門全文數字化的存貯格式。
關鍵詞   紙質檔案 數字化 全文 格式

  在檔案信息化建設中,檔案的數字化工作是檔案信息化工作中的重中之重,在各種檔案中紙質檔案占據了大壁江山,紙質檔案全文數字化問題成為檔案數字化工作中的“瓶頸”問題。從全國范圍來看,除深圳、青島等極少數幾家檔案館摸索性地開展了檔案全文的數字化工作外,絕大部分檔案館和檔案室都處在等待和觀望狀態。紙質檔案的數字化問題中全文的數字化存貯格式問題又是當前紙質檔案的數字化問題中的熱點、難點問題。
  紙質檔案全文數字化可通過掃描儀和數碼相機兩種方式實現,由于紙質檔案數字化要求所獲圖像要保持原貌、變形要小,使用數碼相機反而加大了操作難度,本文僅探討使用掃描儀來實現紙質檔案全文數字化中的存貯格式問題。
在《中華人民共和國行業標準DA/T31—2005 紙質檔案數字化技術規范》中,對圖像存貯格式作了規定:“采用黑白二值模式掃描的圖像文件,一般采用TIFF(G4)格式存儲;采用灰度模式和彩色模式掃描的文件,一般采用JPEG格式存儲”;“存儲時的壓縮率的選擇,應以保證掃描的圖像清晰可讀的前提下,盡量減小存儲容量為準則”;“提供網絡查詢的掃描圖像,也可存儲為CEB、PDF或其他格式”。同時在掃描分辨率上也作了規定:“掃描分辨率參數大小的選擇,原則上以掃描后的圖像清晰、完整、不影響圖像的利用效果為準”;“采用黑白二值、灰度、彩色幾種模式對檔案進行掃描時,其分辨率一般均建議選擇≥100dpi”;“特殊情況下,如文字偏小、密集、清晰度較差等,可適當提高分辨率;需要進行OCR漢字識別的檔案,掃描分辨率建議選擇≥200dpi”。
  為了便于理解,我們先對規范中所列的幾種格式作一簡單介紹:
  TIFF圖像格式,擴展名是tif。TIFF有壓縮和非壓縮二種形式,其中壓縮可采用LZW無損壓縮方案存儲,這種壓縮是文件本身的壓縮,即把文件中某些重復的信息采用一種特殊的方式記錄,文件可完全還原,能保持原有圖顏色和層次,優點是圖像質量好,但占用空間大。由于TIFF格式結構較為復雜,采用無損壓縮可提高與其它圖像軟件的兼容性。
  PEG圖像格式,擴展名是jpg或jpeg。JPEG是面向連續色調靜止圖像的一種高效率壓縮格式,但在JPEG壓縮過程中丟掉的原始圖像的部分數據是無法恢復的。這種文件并不適合放大觀看,輸出成印刷品時品質也會受到影響,如將圖像另外再存成JPEG 格式文件,則原先圖像將再度被壓縮一次,結果圖像的品質將變得更差。
  PDF格式,擴展名是pdf。 PDF采用的是CCITT無損壓縮算法,只是按照PDF的文件結構進行了封裝,這和二值TIF格式采用的算法是一致的,通過PDF掃描的文檔其尺寸至少會和相同TIF文檔一樣大,可以實現多頁存儲及雙層PDF。所謂多頁就是在一份PDF圖像文件中可以存放多頁圖像。所謂雙層PDF就是PDF文件的每一頁都包含兩層,上層是從紙質文件掃描出來的原始圖像,下層是用光學字符識別(OCR)軟件對掃描圖像進行識別后產生的文字結果。這樣用戶在閱讀PDF文件時看到的是掃描圖像,可以100%保留原始版面效果(包括公章、簽名),在需要的時候,又可以通過下層的文字信息支持選擇、復制、檢索等功能。但雙層PDF的中文生成工具也都不是免費的。
  CEB格式,擴展名是ceb。CEB是由國內開發的擁有自主知識產權的一種版式復合文件格式,通過轉換模塊把DOC、WPS、TXT、PDF等多種文件格式轉換成CEB版式文件格式并同步轉換成標準的XML格式,可將文件印刷過程中的版式保留,與紙質文件保持同一性。
  全文數字化工程是一項費時、費工、需要投入大量資金的巨大工程,目標定位不好,將會造成大量的返工和浪費更多的資金、時間以及人力投入。因此在探討存貯格式之前,我認為首先要解決對全文數字化的三種認識問題:第一種認為全文數字化只需要提供使用者可閱讀件即可,因此在存貯格式上只需考慮“看得清”和存貯空間問題;第二種認為只需要提出出檔案的文字內容來提供利用,這樣既可以節約大量存貯空間,也可提高在網上公布時的傳輸速度,因此只需解決字符的識別問題;第三種是在提供可閱讀件的同時還要提供相應的字符內容,為此就要考慮到今后提供在線服務或公共網絡傳遞、公布掃描件等問題,因此就必須既要考慮“看得清”和圖像與字符共存問題,還要考慮再現檔案原貌和存貯空間問題以及存貯格式的通用性、兼容性等問題。
  第一種認識是最容易實現,只需要找到一種能夠實現高壓縮比來解決圖像大小,掃描時采用較低分辨率,能保證人眼“看得清”就行。這種方式可達到“事半功倍”的效果,但是今后隨著人們對數字化檔案利用認識提高的同時,需要提供更進一步的信息時,就需對紙質檔案重新進行掃描才能獲得高質量的文字信息,這勢必會造成更大浪費。因此為了當前能省時、省力、減少經費投入,把目標定位在只提供可閱讀(即“看得清”)上是不可取的。
  第二種認識表面上看實現起來與第一種方式一樣比較簡單,其實在實際操作中比第一種方式要多一道工序。為了得到紙質檔案中的字符信息,必須通過掃描得到圖像后,才能從圖像中識別字符并將其提取出來。既然為了得到字符信息,對已形成的圖像文件就不應隨便丟棄,應保存起來便于日后再用,何況早期的紙質檔案中很多字符計算機都無法識別,只能以圖像文件的方式進行數字化。因此單純保留字符信息的方式也是不可取的。
  第三種認識我認為是出于從長遠來考慮的,全文數字化工作最好是一步到位即紙質檔案只需掃描一次,就能解決掃描件的可讀性、再現檔案原貌、實現圖像內字符的可查找及再編輯、實現圖像以及圖像內字符的共享等問題,減少重復工作、節約更多時間、避免資金浪費。但是要實現此目標,就需對存貯空間、通用性、字符識別、加工操作技術的難易程度及最大限度降低費用等問題進行權衡,探索出適合檔案館(室)工作實際、兼顧行業標準及方便公眾使用等的存貯格式。
  規范中四種格式當中,除CEB格式不能通過掃描獲取不在本文探討之列外,TIFF、JPEG和PDF均可通過掃描獲取,都有很好的通用性。但要實現第三種認識這一最終目標,只有通過PDF格式才能基本達到。其原因有:
  一是純粹的TIFF和JPEG格式只能形成單張圖像文件,每張之間不能按每份檔案之間的聯系形成關聯即不能實現多頁圖像存貯在一個文件中,為了方便日后的使用就必須增加大量的人工操作過程和增大投入來建立相關聯系。二是單張TIFF和JPEG格式的圖像,雖然可通過OCR軟件進行文字識別,但不能形成上層是圖像,下層是文字的雙層格式,只能將識別出的文字另存其他格式的文檔中,其結果是增加了對圖像和文字的加工和管理工作量。通過PDF進行掃描或導入獲得的圖像就能形成多頁圖像,還能形成雙層PDF。
  非常遺憾的是用PDF作為紙質檔案全文的數字化工具時,PDF自帶的OCR工具不支持中、日、韓文字,必須使用國內開發的收費專門工具才能識別中文字符并形成含中文字符的雙層PDF,所形成的PDF空間占用太大,一頁A4幅面帶紅頭、印章的文件用200dpi彩色掃描竟然達到8M大小。值得慶幸的是目前PDF 7.0版本增加了對制作好的PDF 文件,通過“減少文件大小”功能,可以很大程度減少文件大小,8M大小的文件減到200K左右。
  除PDF外,在Microsoft Office2003中自帶了一款Microsoft Office document Imaging(MDI)工具可更完美地實現第三種認識這一最終目標。
  通過MDI掃描可形成數字圖片的通用交換的高分辨率標記TIFF圖象格式(擴展名也為tif) 和一種高分辨率的基于標記TIFF的圖形MDI格式(擴展名為mdi),MDI 格式使用了改進的圖像壓縮技術,與 TIFF 格式相比,可使文件大小更小、圖像保真度更高。
  MDI這款圖像工具與PDF非常相似,同樣能還原檔案面貌、形成多頁圖像、自帶OCR工具并有形成雙層的功能、脫離自身環境后文件中包含的所有 OCR 文本都將丟失。但MDI與PDF又有其不同點,MDI掃描獲得的圖像質量比PDF高、文件大小比PDF更小、自帶OCR工具支持中文字符、字符識別過程中可自動旋轉頁面、雙層功能的實現是免費的、可形成TIFF多頁圖像并能脫離MDI環境能被ACDSEE等其他圖像瀏覽軟件所使用。但是唯一不足之處就是面市時間比較短,很多人還沒有真正認識到他的存在,相比之下,他的兼容性不如PDF好,但憑借微軟件的技術,隨著時間的推移,兼容性問題遲早會得以解決。
圖像格式 PDF MDI
  tif mdi
掃描類型 彩色 黑白 彩色 黑白 彩色 黑白
掃描分辨率(dpi)200 200 200 200 200 200
掃描區域大小 A4 A4 A4 A4 A4 A4
文件長度(KB) 8061 22 939 27 147 29
轉存TIFF后的大小9448 24 939 27 7501 30
多頁圖像 √ √ √ √ √ √
可形成TIFF多頁圖像× × √ √ √ √
自帶中文OCR × × √ √ √ √
中文雙層 × × √ √ √ √
自動旋轉頁面 × × √ √ √ √
  通過以上的分析以及使用同一頁A4幅面帶紅頭、印章的文件作測試(見上表)可以直觀看出MDI的突出特點:全文數字化工作可以一步到位即紙質檔案只需掃描一次,就能解決掃描件的可讀性、保持檔案原貌、利用中文OCR生成雙層MDI實現圖像內字符的可查找及再編輯、在自動進行OCR識別過程中能自動旋轉頁面、所識別的文字可導出為word文檔提供編輯利用實現圖像內字符的共享、形成的圖像及識別的文字質量與PDF相比要高得多、利用保存為TIFF格式功能實現多頁圖像并能脫離MDI環境能被ACDSEE等其他圖像瀏覽軟件所使用、所保存的文件空間占用極小等等,這些突出特點在很大程度上減少了中間的重復操作環節,降低了操作者的操作技術含量,提高了效率節約更多時間、避免不必要的資金浪費。
  因此本人認為,MDI這款圖像工具是當前最適合檔案館(室)工作實際、兼顧行業標準及方便公眾使用的紙質檔案數字化工作的最好工具,如果采用MDI中mdi格式存貯在空間的節約上效果會更加明顯。

 
(文/小編)
免責聲明
本文為小編原創作品,作者: 小編。歡迎轉載,轉載請注明原文出處:http://www.szsunz.com/tech/201811/1715.html 。本文僅代表作者個人觀點,本站未對其內容進行核實,請讀者僅做參考,如若文中涉及有違公德、觸犯法律的內容,一經發現,立即刪除,作者需自行承擔相應責任。涉及到版權或其他問題,請及時聯系我們kf@dawindow.com。
 

Copyright ? 2018 檔案之窗(dawindow.com) ??? 深圳司捷科技有限公司? ? 版權所有       粵ICP備18047471號-1