檔案數字化工作實例
1 中央檔案館紙質檔案數字化工作
為了加強檔案數字化工作,2001 年9 月,中央檔案館技術部在檔案數字化工作領導小組直接領導下建立了數字化加工中心,開發了數據批量加工軟件,開展了檔案數字化加工工作。
1.設備配置
根據不同紙質檔案的加工要求,分別采用不同的設備。柯達3500D主要用于紙張質量較好的檔案掃描,以200dpi掃描A4幅面的可達 85頁/分鐘;柯達 150、鴻光AV830 具有快速掃描(以200dpi 掃描A4幅面為20頁/分鐘)和平板掃描功能,主要用于紙張較薄及幅面不規范的檔案掃描,起到保護檔案的作用; A4平板掃描儀主要用于各種特殊要求的檔案掃描,如粘貼頁、表格頁、一般文本流程圖、插圖、照片頁、字體不規則的全文字頁及各種字跡不清晰的原件和復印件; A3平板主要用于A3幅面的檔案掃描;美能達快速膠片掃描儀用于對縮微膠片快速批量掃描加工。
2.數據加工中心日常管理
由于檔案業務的機密性,凡是數據加工人員都必須進行政治審查,審查通過并簽訂數字化保密協議,方可上崗。同時數據加工人員還必須遵守《中華人民共和國保密法》、《中華人民共和國檔案法》、中央檔案館的現行管理條例規章制度,數據加工操作規章、加班制度、考勤制度,安全防范條例。
(1)加工檔案的類型及數量
一是沒有經過任何電子化處理的紙制載體的檔案或資料。這部分檔案占館藏的絕大部分,資料質地主要是紙張,總量可以達到83 萬卷,其中大部分檔案是1976年以前的,為保護檔案、保證圖像質量,需要降低掃描速度; 1976年以后的,可適當提高掃描速度。
二是經過縮微處理過的膠片檔案或資料。一部分經過縮微的檔案可以通過現有的縮微轉換設備轉換為電子圖像。這部分檔案的數量相對較少,現有設備完全可以滿足數字化轉換要求。
三是其他載體類型的檔案或資料(諸如聲像檔案等多媒體檔案)。這部分檔案可以直接轉換為通用的電子多媒體的形式。
(2)數字化加工工序分解
掃描前整理:根據管理控制臺分配的任務,檔案拆卷、分件、分頁;對任務進行批量掃描前的頁號、件號的標注,如果資料整理結果中的件數、頁號與掃描前所標引的件數、頁號不一致,則將資料重新進行整理。
條目數據的著錄、校對:根據案卷封面和卷內文件目錄進行條目數據的著錄。
通過批量掃描軟件給不同的工位分配、調度掃描、校對任務。
批量掃描:整理好的檔案按頁進行掃描。如果有問題,將任務回退,重新處理。
一次校對:針對文件掃描的情況,標示圖像的質量情況。如果有問題,將任務回退,重新處理。
圖像優化處理:根據一次校對的標示內容,對圖像文件作圖像優化處理。如果有問題,將任務回退,重新處理。
二次校對:察看圖像的情況,并結合一次校對標示內容,對圖像進行質量檢查。如果有問題,將任務回退,重新處理。
批量上載:優化完的圖像,如果有問題,將任務回退,重新處理。
光盤刻錄:質量檢查合格,統一邏輯分盤同時刻錄光盤。
檔案還原:檔案信息電子轉化完成之后,需要將數字化后的檔案進行重新整理,恢復檔案原貌,以便檔案完整保存。
原文掛接:把掃描生成的電子原文上載到中央檔案館檔案管理系統的服務器上,并與檔案管理系統中的卷內目錄一一對應,以便對原文的查詢利用。
3.數字化質量保證技術
為保證檔案數字化的圖像的質量,在掃描紙質文件時,利用數字加工系統進行相應的技術處理。
(1)污漬、黑邊、偏斜處理
包含去污、去黑邊、糾偏等功能。支持兩種去污方式:一是局部去污,如去除黑邊、污點;二是整體去污,可一次性去除頁面上的污漬。糾偏可做到任意角度的校正。
(2)全文字頁面的掃描密度
保證掃描后的數字圖像清晰,便于閱讀,適應各種紙張和手寫印刷字的情況。為此,采用各種專業化的掃描儀,掃描文件存儲為國際通用的TIFF格式,支持多級別分辨率的掃描方式,如黑白、灰階、彩色等;針對不同的檔案圖像質量采用不同的掃描精度。掃描精度在200-600dpi,以清晰為準,不盲目增加精度而造成存儲壓力。并采用國際標準的傳真文檔壓縮格式進行壓縮, A4標準幅面的黑白二值圖像壓縮后平均約為 30kb/頁。可保證圖像存儲空間要求的合理性。
(3)粘貼頁與表格
加工系統提供了局部去污的功能,對于頁面中不應有的表格線污染能夠完全清除;對于粘貼折頁問題,我們通過大幅面掃描儀來解決這一問題;采用局部淡化技術可以解決碳素墨水導致的字跡與表格顏色深度不同的問題,確保數字檔案的可閱讀性。對部分粘貼頁的字體很小、字跡密集的情況,可適當采用提高掃描分辨率、灰度掃描或彩色掃描,以及結合圖像局部深化技術等方式,確保數字檔案的可閱讀性。
對于一般文本流程圖,采用適當的分辨率掃描以及圖像局部深化技術可以確保文本流程圖清晰。隨時調用采用不同設備滿足文本流程圖的掃描工作。
對于插圖,采用高分辨率灰度或彩色掃描技術將插圖與文字一起掃描,保證原來的頁面布局和保證插圖清晰可閱讀。
對于頁面中有黑白或彩色照片的文件,采用 TIFF格式掃描,確保照片清晰度,同時可以避免圖像存儲空間過大。
(4)安全存儲
根據檔案管理軟件開發標準,此次數字化采用的是200 dpi 以上的TIFF國際標準格式,采用國際標準的傳真文檔壓縮格式壓縮后,分別按頁編號后分頁存儲在服務器的Raid5 磁盤陣列柜中。
在生成裸數據光盤之前,根據資料整理信息、掃描前的標引信息及卷內文件頁號信息核查圖像文件總數是否與實際文件數相等,如不相等則不能生成裸數據光盤,但可打印出清單,回退給圖像處理人員補掃。
數據以刻錄光盤的形式每天做增量備份。
最后將原文刻錄光盤的形式移交,并將電子原文數據掛接到中央檔案館檔案管理系統中。
4.數字檔案驗收
驗收總體目標:目錄和經過加工處理影像數據完全掛接,圖像清晰,基本能反映檔案原貌。同時掃描前后的實體檔案按進館標準進行專業整理。
驗收標準:
確保掃描前后檔案整理的一致性、標準性、專業性。
掃描圖像與條目數據100% 掛接。
文件、圖像格式為國際標準TIFF、JPG 格式等。
文件圖像掃描按中央檔案館規定進行,保證提交的圖像文件已經過去污漬、去黑邊、糾偏斜等技術處理;保證照片頁面采用整體彩色或整體黑白掃描,最終確保文字、粘貼頁、表格頁、流程圖、照片等清晰。
2 民國檔案數字化工作的做法和體會
中國第二歷史檔案館(以下簡稱二史館)的館藏主要是民國時期中央政府的檔案,其檔案信息載體基本上都是紙張,排架長度約 50公里。最近幾年,二史館與社會合作,對館藏檔案進行大規模高水準的整理,并把整理成果最終體現在這部分館藏檔案由紙質轉化成數字化。目前共掃描檔案 800多萬畫幅,刻錄光盤1600 余張,取得了較好的社會效益和經濟效益。
1.紙質檔案數字化轉換的兩個重點
紙質檔案數字化是檔案信息數字化的需要,是建立數字化檔案館信息資源的重要途徑。信息化最看中的是基礎數據,最大的優勢是資源共享。館藏檔案信息資源庫的數據質量和信息資源為社會共享的方便程度是工作中主要考慮的兩點。
(1)確保紙質檔案的數字化轉換的質量。
紙質檔案的數字化轉換為數字化檔案館提供了豐富的信息資源,它的質量關系到數字化檔案館的建設。檔案被掃描的機會是一次性的,一旦掃描結束,同一份檔案很難有再次掃描的機會。同時,館藏民國檔案年代久遠,自身的狀況很差,對掃描工作有較高的要求。如果不能把好質量關,在投入使用后才發現問題,其損失將是難以彌補的。對紙質檔案的數字化工作的質量必須予以高度重視,寧可慢一些,但一定要好些。為此,二史館專門設立了“掃描質量檢驗組”,采取一臺質量檢驗計算機跟蹤兩臺掃描計算機掃描圖像,一個畫面一個畫面地人工檢查,凡是有錯掃、漏掃等掃描質量問題均予以刪除后重新補掃。這樣做雖然需要多投入一半的人力和設備,但確保了掃描的質量。
(2)確保檔案的數字化轉換后信息資源共享的便利。
數字化轉換后,檔案信息是以電子文件的形式存在。電子文件的閱讀必須借助專門的電子設備和軟件。在對這些電子文件做長期保存時,還要同時保存它們使用的技術環境。要做到信息資源的共享就要考慮這些技術環境的通用性。例如:針對掃描生成的電子圖像文件,可以有多種不同的文件格式。不少單位從自身情況出發采用了多種不同的保存格式。有的采用掃描速度快,圖像文件壓縮好,一張光盤上可以刻錄的文件數量多的格式。有的是延續過去已經使用的格式,以保持單位內部數據的一致性。而文件的格式與所用的工作軟件是有關聯的,為了提高掃描儀的掃描速度,二史館針對不同的掃描儀開發了專用的掃描軟件,后來,才改用能帶動所有符合TWAIN 標準的掃描儀工作的快速掃描軟件。在將圖像文件刻錄到 CD-R光盤時,選用的是符合ISO 9660 標準的數據刻錄軟件。為了實現信息資源的共享,對生成的電子圖像文件,采用通用格式。
2.紙質檔案數字化轉換的一些做法
二史館在檔案掃描工作中使用的設備有掃描儀12臺,計算機18臺,刻錄機2臺,已達到了每個工作日掃描 10000個畫幅(頁)的加工能力。
(1)技術先行
要做好大批量檔案的數字化轉換工作,技術工作必須先行一步。首先,在調研的基礎上,結合本館實際,提出總體技術方案;其次,確定所采用的數字化轉換的具體辦法、圖像文件的格式、保存圖像文件的方法;第三,根據軟、硬件技術要求確定采用的設備類型、規格、數量。
經過多次討論和小批量的試驗,二史館決定采用多臺平板式掃描儀,掃描生成的圖像文件用JPEG文件保存。每臺掃描儀由一臺計算機控制,生成的圖像文件就存放在該臺計算機中。若干臺計算機組成一個網絡,圖像文件數據可以在各臺計算機之間調動。另外有專門的人員在指定的計算機上對圖像文件進行檢驗,經過檢驗的圖像文件按全宗、案卷、頁碼組織成若干個文件夾,集中至專門的刻錄用計算機,刻錄至CD-R光盤上。這種技術方案的好處是可以充分發揮每臺設備的潛力,節省經費。工作人員工作內容專一,易于操作,有利于提高工作效率。
為了加快掃描速度,需要有專用的快速掃描軟件、刻錄軟件和檢查、整理圖像文件等數據的輔助軟件。采用與專業公司合作及自行設計相結合的辦法,最終設計出了一整套適合二史館檔案特點的掃描系列軟件。經過800 萬畫幅的掃描、存儲、刻錄實踐,證明該掃描系列軟件完全符合檔案數字化轉換的技術標準和使用要求。
(2)人員培訓
利用檔案掃描這個契機,大張旗鼓地進行計算機知識和操作技能的推廣應用工作。各個部門人員輪流參加檔案掃描,事先都安排接受短期培訓,在掃描工作中淘汰下來的計算機也陸續分到各個部門。這項工作的開展大大地提高了計算機應用水平,基本達到了以項目帶檔案管理基礎建設,以項目帶隊伍建設的目的。
(3)制度建設
技術方案決定以后,管理就是決定性的因素。檔案數字化轉換過程也應通過規章制度來加以規范。根據檔案掃描工作中遇到的各種問題,對流程設置、操作工藝、質檢體系、數據的安全等均做出規定,每個工作崗位都制定有具體的操作要求,并在實際工作中,反復修改,逐步完善。
3.幾點體會
(1)領導高度重視是做好數字化轉換工作的關鍵。計算機網絡、應用系統、檔案信息資源、人才隊伍、技術規范是檔案館信息化建設中極為重要的幾項工作,其中檔案信息資源的建設是一項需要較長時間才能做好的工作。紙質檔案的數字化轉換是檔案信息資源庫的一個重要來源,是一項極為重要的基礎工作,領導一定要給以足夠的重視,早做安排,從長計議。這同時也是在實踐檔案的“軟保護”。
(2)必須堅持實踐、實用的原則,在實踐中探索,在使用中創新。當前,新技術層出不窮,然而,最新的最貴的技術不一定是最合適的技術。通過這幾年檔案數字化轉換工作的探索,二史館體會到,引進和使用技術一定要從本單位實際出發,不能盲目追求新技術,只要是成熟的穩定的技術,充分利用,規劃得當,一樣可以發揮作用。
(3)充分調動技術人員的積極性,更好地發揮技術人員的作用。由于人員結構所限,在一些技術問題的解決上必須與外部的專業人員合作,但不能完全依賴別人,一定要給自己的技術人員有一個學習和提高的機會。紙質檔案數字化轉換中不斷出現的一些非主流的技術問題,它的解決就只有依靠自己。二史館采取了鼓勵技術人員大膽工作,自己動手解決問題的做法,編制了一些輔助工作軟件,如批量校對、批量修改、自動統計等,對提高工作效率,減輕勞動強度,保證工作質量發揮了很好的作用。
4.尚待進一步改進和加強的工作
(1)館藏紙質檔案的數字化工作量巨大,要求作為一項長期性的工作來對待。一是做好數字化檔案館信息資源庫的規劃,綜合考慮檔案的價值、利用需求、檔案保管等因素,對館藏檔案的數字化轉換進程做出統籌安排;二是在組織機構、人員設置、崗位職能等方面做相應的工作。
(2)進一步齊全館藏紙質檔案數字化工作的有關資料。一是參照整理檔案時編寫“編制說明”的要求,對館藏檔案的數字化轉換工作采取同樣的做法,詳細記錄該部分檔案數字化轉換的背景信息。內容主要有:檔案選取的依據,制作和使用(閱讀、復制等)的技術環境、操作辦法。二是進一步完善相應的制度和程序,規范數字化轉換的全過程。詳細登錄過程中的各類責任者及責任憑證信息(如起草者、審核者、批準者,批示、簽名、印章等),加強管理,保證質量。
(3)加強數字化檔案信息載體的保管工作。隨著檔案數字化轉換后電子文件數量的急劇增加,對檔案信息載體的保管也需要做新的探索和相應的改變。
(4)對數字化檔案信息的利用需加強。數字化了的檔案信息與傳統載體上的信息是完全相同的,但二者的利用方式卻大相徑庭。在設備、軟件、管理辦法上均有新的要求。
(5)加強相關計算機軟件的交流。首先,數字化轉換用的應用軟件是保證數字化質量和效率的重要因素。可以按照“友好協商”“、互惠交換”或“有償低價”的原則,在檔案系統內交流。這樣通過“成果共享”,有利于減輕軟件開發上的負擔,有利于統一標準的推廣應用,有利于真正做到檔案數字化信息的共享。其次,檔案信息數字化后的一大優點是可以方便地做到在廣大范圍內的信息共享。但有時光有信息統一標準還是不夠的,只有在管理軟件上也統一起來才能真正做到廣義上的信息共享。