紙質檔案的數字化
1 數字化處理方式的選擇
將紙質檔案轉換成計算機可處理的數字格式通常有兩種做法:一是將紙質檔案掃描并以圖像方式存儲(或進行OCR字符識別變成文本文件),二是利用已有的縮微膠片影像進行數字化轉換。
1.直接掃描圖像法
采用掃描儀對檔案原件進行光學掃描,然后將光學圖像傳送到光電轉換器中變為模擬電信號,又將模擬電信號轉變為數字電信號,最后通過計算機接口送至計算機中。此外,采用數碼相機也可以生成高質量的小文件的圖像,但由于其分辨率不足,不能保證很小的特征也能得以忠實地記錄。
將紙質檔案掃描后進行字符識別變成文本文件,優點是識別處理后的文件以文本形式存儲,存儲空間小,能夠實現全文檢索。但卻失去了檔案原件的視覺效果,特別是手寫字跡的識別目前仍然不過關的,校對工作量較大,費用也比較高。而掃描后直接以圖形文件進行存儲的方式,調閱時見到的是原件的“克隆”樣本,看得到諸如印章、簽字、批注等信息,給利用者比較直觀的視覺感受。加之避免了大量的校對工作,費用也比較低。
2.縮微影像轉化法
即采用縮微膠卷掃描儀將膠卷、單片縮影膠片和打孔卡轉換成數字形式。從縮微膠卷進行數字化的主要優點是:沒有尺寸和形狀的限制,任何文件都可以先拍照后掃描,比如報紙因版面過大而無法用普通掃描儀數字化,必須通過過渡介質如縮微拍照或高分辨率的數碼相機實現轉換;縮微膠卷仍然可以保存成為數字檔案的備份;當工作過程被標準化后轉換速度快;已有的縮微膠卷無需再制作,節約了成本。
從縮微膠卷進行數字化,除了專用設備較為昂貴外還有以下缺點:數字圖像已經是第二或第三代,雖然圖像可以強化但需要付出代價;高反差膠片已經去掉了一些原始信息,且色調再現能力差;一些膠片狀況差,包括劃痕、裝訂線陰影、疊接等;尺寸不同的掃描對象和重要的編目問題打亂了規定的數字化程序;掃描儀的分辨率不足以捕捉所有有價值的細節。
檔案部門近年的工作實踐也表明,對紙質檔案進行直接掃描的方式比較經濟和快捷。因此,紙質檔案的數字化一般應采取掃描的方法將其變成電子圖像文件直接存儲,再配合標引信息數據庫的建立,實現檔案資料電子影像的快速檢索利用。縮微膠片影像間接轉換的方法因設備投入較大而只能作為輔助性手段,當然,有些情況下,直接掃描和間接轉換這兩種方法也可以同時配合使用,特別是在已經擁有縮微復制品并且具備轉換設備的情況下,通過縮微膠卷這一過渡介質間接獲得數字化圖像比較適用。
2 數字化輸入設備的選擇
檔案信息數字化可采用掃描儀、數碼相機、數字攝像機等錄入設備。各級檔案部門目前投入使用的檔案數字化加工系統大多采用掃描儀作為數字信息采集設備。紙質檔案數字化所用掃描儀的選擇,取決于所處理檔案的數量、形態和完成任務所計劃的時間等。
1.掃描儀的種類
掃描儀通常分為高速掃描儀和平板掃描儀。高速掃描儀一般處理速度可達每分鐘20-120頁,還有單面掃、雙面掃不同類型可供選擇,其特點是掃描速度快,主要缺點是無法處理大幅面檔案,檔案紙張狀況較差時易損壞原件,特別是珍貴檔案也不太適合選用該類設備進行加工處理。
平板掃描儀主要用于A3、A4幅面檔案的掃描,用途廣,功能強,種類多,價格低,但處理速度較慢。因檔案原件的幅面大小、紙張質量通常是各不相同,千變萬化的,在具體選購時可以平板掃描儀為主,需要時適當酌配少量高速掃描儀。
選擇平板掃描儀的時候首先要注意掃描儀的最大幅面。一般分A4、A4加長幅、A3、A1、A0幾種,以A4最為普遍。由于檔案館掃描對象多為普通文檔及少數相片、圖片類,A4及A4加長幅已可以滿足日常所需,若原稿幅面較大,也可以通過分塊掃描后再拼接的方法來實現掃描。如果掃描大幅面圖紙較多,或資金雄厚,也不妨考慮其它幾種。
掃描儀按顏色還可以分為黑白和彩色掃描儀。如果僅做文字輸入,用黑白機即可,但由于目前黑白機和彩色機的價格已很接近,況且某些檔案原件采用彩色標注(如紅鉛筆批注、發文單位等),所以一般情況下都以購買彩色掃描儀為主。
2.掃描儀性能指標
(1)掃描速度
掃描速度是表示掃描快慢的指標。這項指標對檔案館頗為重要,因為檔案館藏數量龐大,高速掃描有利于提高工作效率,縮短檔案信息數字化的時間。
(2)掃描分辨率
這是決定圖像質量的關鍵因素。分辨率選擇應根據用途、原件字體大小來決定。一般須兼顧顯示、打印或識別要求,適當考慮存儲空間效率,過高的分辨率不但無法顯現效果,會放大原件噪音,而且對存儲空間是一種浪費。
分辨率是表示掃描儀精度的重要指標,反映了掃描儀對圖像細節的表現能力。其中,光學分辨率是掃描儀的光學系統可以采集的實際信息量,即掃描儀的感光元件(CCD)的分辨率;最大分辨率是通過處理器或軟件算法可以捕獲的信息量。光學分辨率是應當首先考慮的指標,因為它不僅決定了掃描儀的價格檔次,還是掃描儀對原始圖像感知能力的具體表示。當前市場上掃描儀的光學分辨率主要有300*600dpi、600*1200 dpi、1000*1200 dpi等類型。
選擇掃描儀絕不是分辨率越高越好,掃描精度提高一倍后,其掃描速度會大大降低,而生成的圖像文件大小則會呈4倍的增長。需要指出的是,掃描分辨率和輸出設備(主要是打印機)的分辨率之間是有匹配關系的,如果掃描分辨率超過一定數值,再清晰的圖像也不可能打印出來,僅僅是多占用了磁盤空間,毫無價值。事實上,檔案館選擇300*600 dpi分辨率的掃描儀即足以應付文字輸入。
(3)色彩分辨率
色彩分辨率是表示掃描儀分辨彩色或灰度細膩程度的指標。理論上,色彩位數越多,顏色越逼真。目前市場上掃描儀的色彩位數一般有24位、30位、36位、48位等幾個檔次。對于檔案館來說,因為一般的文稿或圖片本身質量就不高,一般 24位以上的掃描儀就夠用了。
(4)動態密度范圍
表示掃描儀所能探測到的最淡顏色和最深顏色間的差值。范圍越寬表示掃描儀可捕獲到的可視細節越多,即可再現的色彩細微變化能力越強。該指標對高性能專業掃描儀十分重要,但對于檔案館選擇,并無大礙。
(5)灰度級
表示灰度圖像的亮度層次范圍,級數多說明掃描儀圖像的亮度范圍大,層次豐富。目前多數掃描儀灰度為1024級。
(6)掃描儀的接口方式
主要分EPP、USB、SCSI三種。即打印機端口,EPP其最大特點是方便,對計算機要求低,但掃描質量較差。USB接口速度較快,安裝方便,可以帶電拔插。隨著USB應用的日益廣泛, USB接口的掃描儀已成為發展趨勢。SCSI掃描儀安裝時需要在計算機中安裝一塊接口卡,安裝較復雜,價格較高,但速度快,掃描穩定,掃描時占用系統資源少。其實,無論EPP、USB或SCSI接口,都不是決定掃描儀掃描速度的主要因素,掃描速度與掃描儀本身性能息息相關,因而使用任一種接口方式,掃描速度上并無太大差別,但從接口上看,最適宜檔案館使用的是USB接口,速度與方便兼顧,當然,如果已購置了SCSI接口卡,則使用SCSI接口的掃描儀更佳。
除此而外,還有一些應當考慮的因素,比如易用性、送紙方式等這里就不再詳細敘述了。
3 掃描技術參數的確定
為了保證掃描圖像的質量,必須認真選定圖像掃描的有關技術指標與存儲格式。與掃描圖像質量有關的指標有很多,紙質檔案的掃描中主要應考慮以下兩項參數:
1.掃描分辨率
分辨率越高,則掃描出的圖像越清晰,但所占的資源也相應越多。紙質檔案的掃描一般可選200-300dpi。
2.掃描模式
即選擇灰度掃描還是黑白二值掃描。對于一般的文字型檔案文件,可以采用黑白二值掃描;需要表現檔案原件細節的,則可以采取灰度掃描。
3.壓縮存儲格式
紙質檔案掃描信息的壓縮存儲格式主要有TIFF、BMP、JPEG、AWD等幾種。根據檔案部門的實際應用情況,一般選擇TIFF格式或JPEG格式。BMP格式是標準的位圖格式,對復雜的攝影圖片的表現力不如GIF和JPEG, BMP格式的主要缺點是依賴Windows,對其它軟件支持不夠。AWD格式使用Imaging(通過Windows程序-附件-映象打開)進行文件多頁掃描,每個文檔可含有多個頁面,文件占用空間較小,只有黑白形式。
(1)TIFF格式
TIFF格式可以存儲多幅圖像,其中以未壓縮形式存儲的TIFF文件可通過OCR軟件識別轉換為可編輯的文本。它的結構復雜,用一個程序讀出所有的TIFF幾乎是不可能的。因此在使用TIFF格式時,必須注意其版本、壓縮格式。
(2)JPEG格式
JPEG是一個通用的靜態圖像壓縮編碼標準,可以用不同的壓縮比例對這種文件格式壓縮,屬于有損壓縮。目前這種格式的圖像在網絡應用中十分廣泛,掃描彩色照片或公文也可采用此種格式,但不能用于OCR識別和多頁形式。
根據目前檔案部門的實踐,通常以TIFF或JPEG格式存儲。在滿足圖像清晰度的前提下,一般以黑白或灰度圖像格式存儲,以減少存儲空間。另外,如要考慮今后OCR需要,可以選用以TIFF非壓縮格式存儲。
4 數字化處理步驟
紙質檔案的掃描加工一般采用流水線作業形式進行,而檔案拆卷后以散張的形式存在,這就要求操作者要嚴格按照每道工序的要求,仔細處理和操作,防止檔案的散失。一般說來,應當按照整理、掃描、校對、存儲等幾道工序對紙質檔案進行數字化處理。
(1)整理
按掃描計劃和工作進程,每次以一定卷數為一批次安排到人,檢查完整性,無誤后在掃描備考表上簽字并向整理者移交。整理的主要內容和要求:一是檢查文件的完整性;二是對每份文件正文進行拆金屬裝訂,因為批量掃描的需要而要求檔案以散張的形式存在;三是對文件進行打頁號。按有字的一面算一頁的方式進行計頁,因為這樣可以有效地防止檔案的丟失及在處理過程中檔案位置順序的排錯,并且這樣在校對時也比較方便;四是登記幅面大于A4紙張破損和紙質很差的頁,以便對幅面大于A4的頁采用A3幅面的平板掃描儀進行掃描,對紙張破損和紙質很差的頁采用平板掃描儀進行掃描。
(2)掃描
掃描文件采用TIFF格式,用G4的最大壓縮率,文件名稱由“檔號十三位順序號”組成,采用100dpi分辨率,黑白模式掃描,一般情況下選掃描區域大小為A4,對比度、明亮度均為192。
(3)校對
校對者用圖像處理軟件對掃描圖像進行校對,并進行糾斜、去黑邊、增亮等相應處理,對需重掃或缺掃頁進行登記,以方便重掃和補掃。
(4)存儲
與此同時,對檔案原件要進行整理、重新裝訂,檢查無誤后予以歸還,防止檔案散失。
5 數字化存儲設備的選擇
大量檔案原文的存儲管理離不開海量存儲技術。光盤存儲系統是目前海量存儲的基本手段。完整的光盤存儲系統包括光盤盤片、相應的光盤驅動器及其光盤軟件。
光盤以其存放數據類型及其數據格式的不同而分不同類別,從其用途和性能分為3類:只讀型光盤,如CD-ROM、VCD等;一次寫入多次讀出的光盤,如CD-R和WORM;可重復讀寫光盤,如磁光投MO等。數字化檔案信息通常只需存入一次,改動的可能性較小(處于相對活躍期的科技檔案除外),因而,適用于后兩類光盤,尤其是第二類光盤。
與光盤相對應,光盤機也有只讀型、寫一次型、可重寫型三類。目前,流行的光盤機主要有只讀光盤存儲器CD-ROM、可寫CD驅動器(也稱CD刻錄機)、可擦寫光盤驅動器、DVD機等。實現檔案全文數據的網絡共享,多采用超大容量的光盤塔與光盤庫為存儲設備。一個光盤塔可同時裝載幾十片甚至上百片CD盤片,容量在幾十GB 以上。光盤塔內有若干個刻錄驅動器,讀寫時光盤塔能自動將要讀寫的CD盤片放入刻錄驅動器中。光盤庫是MO技術的擴展,一個光盤庫可同時裝載十幾張或幾十張MO盤片。光盤庫中有若干個MO驅動器;讀寫時光盤庫能自動地將要讀寫的盤片放入MO驅動器中。光盤庫存儲量很大,都在幾十GB以上。以 50GB的光盤庫為例,可存儲50萬到500萬張A4文檔原件。光盤塔、光盤庫的類型十分豐富,各項性能指標差別較大,因此,必須謹慎選擇適合檔案信息管理的光盤存儲系統。以下是選擇檔案信息用光盤存儲系統的考慮因素。
(1)支持并發訪問用戶的數量
在選擇光盤系統時通常存在一個誤區,即將光盤系統的價格和存儲容量作為首要考慮因素。其實,選擇檔案光盤系統最關鍵的因素應當是其可同時支持的在線并發訪問用戶的數量。網上檔案全文庫最基本的功能是在全網范圍內提供快捷便利的檔案信息利用,在網絡中同時有20-50名用戶并發訪問光盤庫是常見的,因此對眾多并發訪問的支持是有效實現檔案于信息庫利用價值的基本條件。否則,無論存儲容量多大,都可能因光盤系統不能有效支持眾多并發用戶而徹底崩潰,進而導致整個網絡系統的癱瘓。
(2)安全性及其安全管理體系
檔案信息不得篡改,因此確保其存儲安全十分重要。對于鏡像存放在光盤存儲系統中的重要檔案信息,系統管理員和合法用戶在任何情況下均不得對其數據做任何修改。然而,某些品牌的光盤服務器卻因硬件和軟件設計的失誤,導致任何用戶均可對存儲鏡像的光盤數據做任意篡改,這將造成嚴重后果。由于光盤存儲系統的生產商和代理商對此類缺憾有意無意地隱瞞,很多單位未能意識到問題的嚴重性。因此,檔案館在選擇檔案光盤系統時安全性是必須考慮的重要因素。此外,在系統管理體系方面,檔案光盤存儲系統能否與NTDomain等網絡管理界面無縫集成,支持Passthrough功能,是否具有自動日志功能,可自動記錄所有用戶的訪問信息,包括使用賬號、時間、訪問方式、網絡地址和訪問狀態等,都是選擇時必須考慮的安全因素。目前,市場上部分品牌的光盤塔、光盤服務器的系統管理員可輕松發現惡意用戶對光盤塔的攻擊和越權訪問行為,做到及時給予制止和警告。
(3)對各種網絡操作系統和網絡結構的支持
網絡環境中,網絡操作系統平臺和網絡結構千變萬化,網絡中服務器和客戶機多種多樣,這就要求檔案光盤存儲系統能夠適應各種復雜的網絡環境,目前國內市場上的光盤塔和光盤服務器都能支持多操作系統混合的網絡環境。
(4)存儲容量
檔案館、檔案室必須根據本單位數字化檔案的數量及其增長情況來選定光盤塔、光盤庫可存儲光盤的數量及其總的存儲容量。存放檔案信息的光盤數量每年在不斷增加,因此選擇檔案光盤存儲系統時應考慮系統是否允許采取自行添加硬盤的方式來對光盤塔和光盤服務器進行擴容。部分光盤存儲系統出廠時有預置存儲容量的機型供選擇。
6 縮微影像轉換技術應用
對于已經進行過縮微復制的紙質檔案,如果具備條件,沒有必要像前面介紹的那樣再次調用檔案原件進行直接掃描,而可以采用專用設備對縮微膠片上的影像進行數字化轉換處理,達到同樣的目的。縮微影像轉換技術的應用,包括對縮微膠片進行掃描,把縮微模擬影像轉換成數字影像,進行存儲、還原和檢索輸出等工作。
運用縮微數字影像系統對檔案縮微品進行掃描,把模擬影像轉換成數字影像是該技術中的一項基礎性工作。在從事這項工作中應注意以下幾個問題:
1.縮微膠片掃描設備的選擇
目前,縮微影像轉換成數字影像的技術日趨成熟,縮微膠片數字掃描系統,既要考慮先進性,又要選擇適用性,同時還要考慮性能價格比。
目前,市場上的縮微膠片掃描系統主要有:英國的“優勝”4001和4100型,日本佳能的MS500型和日本的美能達的MS3000型等。比如,美能達的MS3000型縮微膠片掃描儀,不僅能夠把縮微模擬影像轉換成數字影像,還能作為縮微數字影像的還原設備使用。
2.掃描技術參數的選擇
掃描分辨率的選擇。根據相關單位的實驗,掃描的分辨率越高獲取的信息技術越大,對原影像的細節描述就越好,對于層次比較豐富的影像來說,掃描的分辨率越高,得到的數字影像就越豐富。美能達MS3000型縮微數字影像系統有200dpi、300dpi和400dpi三種分辨率。鑒于目前檔案館保存的檔案多是以文字為主要內容的,其影像層次比較少,以黑白兩級為主,因此對以文字為主的檔案縮微膠片,選擇200dpi作為掃描的分辨率為宜。
掃描的亮度的選擇。掃描亮度值以45-60為最佳。掃描亮度值大于60時,底灰隨亮度的增加而增大,無用信息增加,數字影像占用空間增大,不利于數字影像的存儲、還原、數據處理和網絡傳遞。掃描亮度值小于45時,數字影像的占用空間隨亮度減弱而減少,影像變淺,原影像信息減弱或丟失。掃描亮度值在50-60之間,數字影像的占用空間適宜,原縮微影像信息基本不丟失,影像沒有底灰。因此,50-60的掃描亮度值是檔案縮微膠片轉換成縮微數字影像的最佳曝光亮度。
掃描對比度的選擇。掃描對比度數值以80-90為最佳。掃描時對比度數值小,數字影像的反差就小,出現底灰多,數字影像占用空間大,影像清晰度受到影響。掃描時對比度數值高,數字影像的反差就大,特別是一些鉛筆或紅、藍鉛筆字,通過提高對比度可以加強信息的獲取量,使數字影像更加清晰,同時數字影像占用空間減少。掃描時對比度數值太高,也不利于檔案縮微模擬影像轉換成數字影像,原因在于過高的對比度,不但不能通過掃描加強影像的信息量,反而使其信息量失真或丟失。
3.校對工作
對掃描后的縮微影像要進行逐頁校對,然后把縮微數字影像按件與計算機數據目錄掛接,把縮微數字影像建立起一個完整的數字化檔案全宗。
縮微數字影像的存儲與輸出(還原),與紙質檔案數字化圖像的存儲和輸出方式、程序等基本相同,此處不再贅述。