第一個問題實際上是如何認識和避免館藏檔案數(shù)字化的風險。館藏檔案數(shù)字化涉及一系列技術(shù)與理論問題,是一個探索性的工作。筆者雖不能籠統(tǒng)回答南陽市檔案館館藏檔案數(shù)字化工作會不會勞而無功,但可以肯定地說確實有一定的風險,尤其是在軟件不到位的情況下風險會很大。從理論上講,數(shù)字化流程的各個環(huán)節(jié)的等失當都可能給此項工作帶來風險。但從實際工作看,數(shù)據(jù)質(zhì)量決定著檔案數(shù)字化工程的成敗和效率,數(shù)據(jù)質(zhì)量不過關(guān)是造成風險乃至勞而無功的主要原因。因此,確保數(shù)據(jù)質(zhì)量是數(shù)字化工作成功的關(guān)鍵。鑒于我省的實際,筆者認為實施技術(shù)層面的標準統(tǒng)一是確保數(shù)據(jù)質(zhì)量,避免或減少館藏檔案數(shù)字化工作風險的主要措施。
首先,檔案館在建立檔案目錄數(shù)據(jù)庫時:一是嚴格按照《檔案著錄規(guī)則》的要求確定檔案著錄項,進行著錄。二是所選定的數(shù)據(jù)格式應(yīng)能直接或間接通過XML文檔進行數(shù)據(jù)交換。三是采用人工校對或軟件自動校對的方式,對目錄數(shù)據(jù)庫的建庫質(zhì)量進行檢查。
其次,檔案館在建立檔案全文數(shù)據(jù)庫時:一是應(yīng)選擇通用的數(shù)據(jù)格式。字型數(shù)據(jù)采用XML文檔和RTF、TXT格式,掃描圖像數(shù)據(jù)采用JPEG、TIFF格式,視頻數(shù)據(jù)采用MPEG、AVI格式,音頻數(shù)據(jù)采用MP3、WAV等格式。二是應(yīng)選擇合適的存貯方式。圖像文件如果選用數(shù)據(jù)庫存貯,則要求數(shù)據(jù)庫服務(wù)器的存貯容量足夠大;如果選用文件存貯,則應(yīng)考慮存貯在文件服務(wù)器上文件的存貯規(guī)則和命名規(guī)則,以方便實現(xiàn)圖像文件與目錄數(shù)據(jù)庫的檢索。三是應(yīng)選用專門開發(fā)的系統(tǒng)來實現(xiàn)。該系統(tǒng)必須符合《檔案管理軟件功能要求暫行規(guī)定》的要求,具備較強的數(shù)據(jù)獨立性,確保在軟、硬件環(huán)境發(fā)生變化時數(shù)據(jù)的完整、安全遷移及有效利用。
第二個問題實際上是如何實現(xiàn)檔案數(shù)字化中形成的目錄數(shù)據(jù)庫與圖像數(shù)據(jù)庫的掛接?!都堎|(zhì)檔案數(shù)字化技術(shù)規(guī)范》已對目錄數(shù)據(jù)庫與圖像數(shù)據(jù)庫的掛接提出明確的要求。國內(nèi)的主流檔案管理軟件基本上都具有此項功能,相關(guān)技術(shù)已有重大突破并趨于成熟。目前,目錄數(shù)據(jù)庫與圖像數(shù)據(jù)庫的掛接一般采用兩種方式實現(xiàn):一是在檔案條目信息錄入的同時,進行相關(guān)文件的掃描(或數(shù)碼拍照),并將掃描(或數(shù)碼拍照)完的文件直接上傳到FTP服務(wù)器。二是將檔案條目信息的錄入與原文的掃描(或數(shù)碼拍照)分開進行,當條目信息錄入完成且原文信息掃描(或數(shù)碼拍照)完成后,可批量選擇本地硬盤需要上傳的圖像文件上傳到FTP服務(wù)器中。若要實現(xiàn)批量掛接,需提前對掃描形成的圖像文件的命名規(guī)則進行定義。通常是以紙質(zhì)檔案目錄數(shù)據(jù)庫為依據(jù),將每一件紙質(zhì)檔案文件掃描(或數(shù)碼拍照)所得的一個或多個圖像存儲為一份圖像文件。將圖像文件存儲到相應(yīng)文件夾時,要認真核查每一份圖像文件的名稱與檔案目錄數(shù)據(jù)庫中該份文件的檔號是否相同,圖像文件的頁數(shù)與檔案目錄數(shù)據(jù)庫中該份文件的頁數(shù)是否一致,圖像文件的總數(shù)與目錄數(shù)據(jù)庫中文件的總數(shù)是否相同等。通過每一份圖像文件的文件名與檔案目錄數(shù)據(jù)庫中該份文件的檔號的一致性和唯一性,建立起一一對應(yīng)的關(guān)聯(lián)關(guān)系,為實現(xiàn)檔案目錄數(shù)據(jù)庫與圖像文件的批量掛接創(chuàng)造條件。
通過檔案目錄數(shù)據(jù)庫與圖像文件的掛接,系統(tǒng)就可初步實現(xiàn)對目標檔案的全文檢索,然而,從檢索技術(shù)上講全文檢索還不止于此。真正意義上的全文檢索,不僅應(yīng)該構(gòu)建功能完備的檔案全文數(shù)據(jù)庫,而且能夠集成數(shù)據(jù)庫檢索技術(shù)、全文檢索技術(shù)、圖像內(nèi)容檢索技術(shù)以及數(shù)字化音頻和視頻信息的檢索技術(shù)等。由于數(shù)字化檔案要求必須與檔案原件完全一致,然而目前的數(shù)字轉(zhuǎn)換、識別技術(shù)又不能完全滿足這一要求,因此,要實現(xiàn)數(shù)字檔案全文檢索,還有待技術(shù)的進一步發(fā)展。