從數字化前整理邁向數字化后整理
(一) 數字化前整理
在目前這股席卷檔案界的數字化浪潮中,檔案整理工作者最直觀的感受就是將傳統的整理工作納入了數字化工程的流程之中,成為數字化工程的第一個重要工作環節,稱之為“數字化前整理”。
從各地檔案館開展檔案數字化的實踐上看,數字化前整理工作主要目標是解決案卷實體長期存在的一些問題,集中表現在以下幾個方面:
一是檔號不規范,沒有目錄號一卷多冊現象較多;
二是案卷標題不規范,有標題但不能反映主題內容,或標題缺少基本要素;
三是許多案卷沒有編頁,如果使用中掉頁很難發現;
四是組卷混亂、標準不統一,有按時間組卷的,也有按職能部門管轄權限組卷的,還有按文種組卷的;
五是案卷厚薄不一,薄的僅一二頁紙一卷,厚的達六七百頁紙一卷。
這些問題的共性是不規范,而不規范是推進數字化工作的一大障礙,必須加以克服。由此可見,數字化前整理工作環節的目的是夯實基礎,確保后續各環節能夠達成標準化、規范化和精準化的指標。目前,各地檔案館經過大規模的、集中的數字化掃描,形成并積累了巨量的電子檔案數據,并逐步以電子檔案代替檔案原件對社會開放,基本消除了開放利用過程中檔案實體的安全隱患,一舉解決了長期存在的檔案開放與保管的矛盾。
數字化前整理主要工作對象依然是紙質案卷的實體,所遵循的原則依然是傳統的案卷整理中一貫強調的“保持文件之間的歷史聯系”“利用檔案原有基礎”“必須便于保管和利用”等原則,所采取的工作手段依然是以手工操作為主,所以說盡管被納入了數字化工程的流程之中,數字化前整理從本質上是從傳統的整理模式向現代數字整理模式轉換的一種過渡形態。
(二) 數字化后整理
所謂數字化后整理,也就是對掃描產生的電子檔案進行后期處理、精細化再加工,是對檔案信息的深度挖掘。
1 推進數字化后整理的必要性
之所以要推進數字化后整理,主要的原因在于此時的電子檔案,畢竟是案卷級整理加工的產物,所形成的案卷級標題存在著先天性缺陷,因而導致了案卷級目錄檢索系統是一種不完善的檢索系統。為了克服這種不完善,就必須再進行數字化后整理。
案卷級目錄體系的先天性缺陷有兩點,即題寫案卷標題時的人為性和概括性。
(1) 人為性
檔案整理人員整理立卷的過程,實際是對卷內文件信息進行加工處理的過程。從信息學的角度看,人們對外界信息的理解,要受特定的環境因素,如社會政治、經濟、文化條件以及自身經歷、素質、態度、知識結構和心理特征等的影響,這稱為“選擇性理解”。不同的人對于同一信息可以有不同的加工處理方式,產生不同的反應,得出不同的結論。英國有句諺語: 有1000個讀者,就有1000 個“哈姆雷特”。同樣的道理,面對相同的一堆零散文檔資料,有1000 個檔案整理人員,就能整理出1000 個不同的案卷、撰寫出1000 條不同的案卷標題來。
傳統的以“卷” 為單位的整理方法是一種經驗型的整理方法。“卷” 不是自然存在的事物,它是檔案機構為了保管和利用的方便,對一組文件進行事后加工整理的產物。靈活運用“六個特征” (問題、作者、時間、名稱、通訊者和地區) 以保持文件之間的歷史聯系,并便于利用和保管,是整理檔案材料的基本原則,也是衡量案卷質量的主要標準。然而這種標準只是一種主觀標準,并非客觀標準。分類組卷、案卷標題的擬寫等,只能憑個人的經驗、憑主觀判斷來完成。由于這種整理方式的人為性太強,因而整理結果難以把握,其科學性也就大打折扣。
(2) 概括性
根據筆者對中國第二歷史檔案館(以下簡稱“二史館” ) 館藏檔案的抽樣統計,二史館平均每卷的頁數在100 頁左右,每一個案卷平均由20 份文件組成,每份文件都反映不同的內容。而在傳統的以“卷” 為單位的整理方式中,案卷題名的字數一般被限制在50 個字之內。以如此“精練” 之文字來揭示如此豐富之卷內內容,其難度之大、技巧之高可想而知。所以,對于題寫案卷標題的基本要求歷來是: 以簡練準確的文字概括揭示卷內文件最基本、最主要的內容與成分。換而言之,案卷內其他非基本、非主要的文件內容是允許忽略不計的。于是,卷內大量鮮活、頗據價值的信息在整理人員題寫案卷標題的過程中被無奈地過濾掉了。由此可見,案卷標題的概括性是以犧牲案卷標題的完整性和準確性為代價的。
2 電子檔案文件級目錄制作
目前,檔案部門開展數字化后整理、深度挖掘檔案信息的工作集中體現在電子檔案的文件級目錄的制作上。國家檔案局在?數字檔案館建設指南?中就此專門提出要“全面推進館藏數字檔案基礎數據庫建設、優先建立館藏檔案的文件級目錄數據庫”。
開展檔案數字化后整理、建立館藏電子檔案文件級數據庫,目的在于有效地組織檔案信息資源并方便查詢和利用,在達到信息整序的同時實現對檔案文件的智能控制。為此,需要特別注意下述兩個方面的問題,真正做到按檔案信息化的原則開展檔案信息化。
(1) 要清醒認識到案卷級標題與文件級目錄的根本區別
由于兩者在主要工作內容、技術手段、工作目的等方面存在區別,因而兩者所遵循的原則、標準規范、實施方案、操作流程也存在很大的差異。所以說不能用以往長期制作案卷目錄時所形成的習慣性思維、眼光、標準來檢視文件級目錄,不能將文件級目錄簡單地視為案卷級目錄的細化。二者的根本區別在于: 案卷級標題是對卷內文件信息集合的主觀描述,對于查檔者而言是對卷內內容的簡介和導讀;而文件級目錄則是對單份文件本身所固有的各項信息特征的客觀采集,可以全面、準確地深度揭示檔案文件的內容,對于查檔者而言是對文件內容的報道和導航。
文件自身固有的特征有責任者、收文者、時間、文種、載體形式、關鍵字、檔號等項目,在著錄時必須加以準確地捕捉和規范地標引。至于文件題名項則相對復雜: 如果文件原文上已經存在標題或摘要,可直接照錄;如果文件原文上沒有標題或摘要,則可簡要擬寫。簡而言之,在電子檔案文件級著錄時,應奉行客觀采集的宗旨,盡量避免主觀的闡釋或引申。
(2) 時刻不忘建立文件級檔案數據庫的初衷,踐行以用戶為中心的服務理念
在設計文件級檔案檢索系統時應秉持以用戶為中心的理念,采用基于自然語言的智能化用戶界面,以及符合查檔者行為習慣的解決方案,在查檔者特定的信息需求與數據庫中相關的檔案文件之間實現精確匹配,消除檔案的檢索盲點,目標是建成一種高效率的人性化檢索體系,確保用戶能有效獲取信息。
作為自然語言的查詢方式,優勢在于用戶無需學習,因為自然語言是每個人所熟悉的,并且具有豐富的表達能力來表達用戶的信息需求。因此從檢索語言上講,絕大多數用戶更傾向于用自然語言進行檢索,那種受嚴格控制的專業詞表檢索方式很難得到用戶的認可。在自然語言檢索系統中,用戶可以任意輸入自由詞匯,系統直接用這個詞在數據庫中進行檢索,或者自動將這個詞轉換成規范的主題詞或敘詞后再進行檢索。