電子檔案文件級目錄數(shù)據(jù)庫的設(shè)計與實踐
一、電子檔案的分類
隨著信息技術(shù)的迅猛發(fā)展,大量的電子文件產(chǎn)生,電子檔案的概念也出現(xiàn)在檔案工作者的面前。從字面理解,電子檔案就是檔案館接收和保存的有歸檔價值的電子文件。?DA/ T 58—2014 電子檔案管理基本術(shù)語? 中定義電子檔案即“具有憑證、查考和保存價值并歸檔保存的電子文件。 ”
一般的觀點(diǎn)認(rèn)為電子檔案產(chǎn)生來源有兩類,一種是由一般的電子信息系統(tǒng)產(chǎn)生的,另一種是由電子公文系統(tǒng)產(chǎn)生的。前一種電子檔案通常是通過紙質(zhì)檔案數(shù)字化加工軟件生成或縮微膠片轉(zhuǎn)換形成的,后一種是由電子公文系統(tǒng)在線直接歸檔產(chǎn)生的原生電子檔案。后者的管理更多要依靠電子公文系統(tǒng)的設(shè)計,在文件形成的前端進(jìn)行控制,采集電子文件的元數(shù)據(jù),最終生成電子檔案。 這類的電子檔案目錄數(shù)據(jù)庫的設(shè)計更多依靠電子公文系統(tǒng),檔案部門通常位于文件生成的后端,現(xiàn)階段不具備對文件進(jìn)行全程控制的條件。
本文主要研究的是第一類電子檔案,即紙質(zhì)檔案數(shù)字化或縮微膠片轉(zhuǎn)換后形成的電子檔案。為方便表述,以下探討凡涉及“電子檔案” 這一概念的,均指這類電子檔案。
二、電子檔案的著錄
無論紙質(zhì)檔案還是電子檔案,這些保存了重要信息的載體,能夠通過工具檢索,提取文件中的重要信息資源,才能體現(xiàn)檔案的價值。雜亂無章的文件如何形成井然有序的檔案,首要工作就是檔案的整理。歸檔文件的整理工作主要分為系統(tǒng)化和編目兩部分。將文件歸類和排序是系統(tǒng)化的主要工作,編目是指為歸檔文件編制目錄的過程。
(一) 編目和著錄
歸檔文件的編目和電子檔案的著錄,通常被認(rèn)為是一個類似的概念,都是一個動作,形成可供檢索的目錄的過程。從狹義上講,二者是同義詞,廣義上編目還包括將著錄形成的各條款目按照一定的原則與方法組織成各類目錄的過程。
對于“檔案著錄” 的概念,在1992 年的行業(yè)標(biāo)準(zhǔn)?DA/ T 1—1992 檔案工作基本術(shù)語? 中是這樣定義的: 在編制檔案目錄時,對檔案內(nèi)容和形式特征進(jìn)行分析、選擇和記錄的過程。 在2000 年頒布的行業(yè)標(biāo)準(zhǔn)?DA/ T 1—2000 檔案工作基本術(shù)語? 中是這樣定義的: 對檔案內(nèi)容和形式特征進(jìn)行分析、選擇和記錄的過程。 到了2014 年,行業(yè)標(biāo)準(zhǔn)?DA/ T 58—2014 電子檔案管理基本術(shù)語? 中的定義: 按標(biāo)準(zhǔn)形式對電子檔案的內(nèi)容、結(jié)構(gòu)、背景及管理活動進(jìn)行描述的過程。
從對著錄概念的變化,可以看出不同于紙質(zhì)檔案的著錄,電子檔案的著錄還增加了包括結(jié)構(gòu)和背景、管理活動等相關(guān)內(nèi)容的描述。
(二) 電子檔案的著錄
根據(jù)我國的?DA/ T 18—1999 檔案著錄規(guī)則? 的要求,還是主要應(yīng)對的是傳統(tǒng)意義的檔案。到目前為止,還沒有一個國家標(biāo)準(zhǔn)來統(tǒng)一規(guī)范電子檔案的數(shù)據(jù)結(jié)構(gòu)。在沒有行業(yè)標(biāo)準(zhǔn)的前提下,電子檔案的著錄通常是依靠檔案整理過程中的編目后形成的檔案目錄,通過人工錄入的方式,將編目完成的紙質(zhì)目錄,輸入數(shù)據(jù)庫中,最終完成目錄數(shù)據(jù)庫的建設(shè)。
如果完全依照?DA/ T 18—1999 檔案著錄規(guī)則? 的要求,那么電子檔案著錄中就會發(fā)現(xiàn)以下問題:
1 與電子檔案相關(guān)的結(jié)構(gòu)信息、背景信息等沒有相應(yīng)項目填寫。例如,電子檔案為了便于和檔案圖像文件掛接,需要原文路徑項目在著錄規(guī)則中并沒有涉及。
2 符合著錄規(guī)則的目錄項目并不一定完全適合電子檔案。例如,文件的形成時間由8 位阿拉伯?dāng)?shù)字組成,原時間缺少或字跡不清晰的以“□” 補(bǔ)之。電子檔案通常會采用8 位字符,不能查考的時間補(bǔ)零,而很少使用“□”,既不便于檢索,也會紿計算機(jī)系統(tǒng)的開發(fā)增加難度。
3 著錄規(guī)則中的著錄項目只是定義了項目的內(nèi)容和文字要求,而電子檔案的目錄數(shù)據(jù)庫還要求了數(shù)據(jù)庫字段項的格式和長度。
通過和傳統(tǒng)檔案著錄的比較,我們發(fā)現(xiàn)電子檔案的著錄或者說目錄數(shù)據(jù)庫的建庫過程,除了要滿足檔案業(yè)務(wù)的基本規(guī)律以外,還要符合計算機(jī)的語言習(xí)慣和數(shù)據(jù)結(jié)構(gòu)要求。
三、目錄數(shù)據(jù)庫的設(shè)計與實踐
為了適應(yīng)檔案管理現(xiàn)代化的需要,完全不同于傳統(tǒng)立卷方法的“文件級” 整理方法出臺,?DA/ T 22—2000 歸檔文件整理規(guī)則? 于2000 年12 月6 日由國家檔案局正式頒布,并于2001 年1 月1 日起實施。2015 年10 月25 日又重新修訂了該標(biāo)準(zhǔn),頒布了?DA/ T 22—2015 歸檔文件整理規(guī)則?。最新標(biāo)準(zhǔn)擴(kuò)大了標(biāo)準(zhǔn)的適用范圍,由紙質(zhì)文件材料擴(kuò)展為紙質(zhì)和電子文件材料。
電子檔案的文件級目錄數(shù)據(jù)庫的設(shè)計既要與傳統(tǒng)紙質(zhì)檔案的編目有差別,也要和傳統(tǒng)的“案卷級” 檔案建庫區(qū)分開。本章將結(jié)合中央檔案館在電子檔案文件級目錄數(shù)據(jù)庫建設(shè)過程中的經(jīng)驗,詳細(xì)介紹數(shù)據(jù)庫設(shè)計應(yīng)遵循的原則、遇到的問題和解決思路。
(一) 設(shè)計原則
檔案目錄數(shù)據(jù)庫的設(shè)計是為了更快捷地查找到要查找的檔案資源,并且和相應(yīng)紙質(zhì)檔案建立關(guān)聯(lián)。這就要求在數(shù)據(jù)庫設(shè)計的過程中要做到和紙質(zhì)檔案的一一對應(yīng),能夠通過數(shù)據(jù)庫快速查找到相應(yīng)的電子檔案圖像和紙質(zhì)檔案。
符合歸檔文件整理規(guī)則,并且做到與紙質(zhì)檔案的一一對應(yīng)是電子檔案文件級目錄數(shù)據(jù)庫的重要設(shè)計原則。
(二) 詳細(xì)設(shè)計
電子檔案的文件級目錄數(shù)據(jù)庫的設(shè)計主要分為兩個部分,一是數(shù)據(jù)庫系統(tǒng)的選擇,二是數(shù)據(jù)結(jié)構(gòu)的設(shè)計。
1 數(shù)據(jù)庫系統(tǒng)的選擇
根據(jù)檔案行業(yè)的特殊性,在數(shù)據(jù)庫系統(tǒng)產(chǎn)品的選擇方面,主要有以下幾個標(biāo)準(zhǔn)可供參考。
(1) 數(shù)據(jù)庫建設(shè)的易用性: 主要指數(shù)據(jù)庫管理語句符合國際標(biāo)準(zhǔn),有面向用戶的易用的開發(fā)工具。
(2) 數(shù)據(jù)庫管理系統(tǒng)的性能分析: 主要指數(shù)據(jù)庫系統(tǒng)具有性能評估、性能監(jiān)控、性能管理等功能。
(3) 海量存儲能力: 主要指數(shù)據(jù)庫系統(tǒng)可以支持海量的數(shù)據(jù),不會影響系統(tǒng)使用的效率。
(4) 并行處理能力: 主要指支持多用戶并發(fā)。
(5) 可移植性和擴(kuò)展性: 主要指數(shù)據(jù)庫系統(tǒng)遷移的能力。
(6) 并發(fā)控制: 數(shù)據(jù)庫系統(tǒng)支持多CPU 模式。
(7) 安全性: 主要指數(shù)據(jù)庫系統(tǒng)具有賬戶管理、用戶權(quán)限、網(wǎng)絡(luò)安全控制等功能。
(8) 對漢字的支持: 主要指數(shù)據(jù)庫描述語言的漢字處理能力和數(shù)據(jù)庫開發(fā)工具對漢字的支持能力。
能夠較好地滿足上述標(biāo)準(zhǔn)的數(shù)據(jù)庫系統(tǒng)都可以成為電子檔案數(shù)據(jù)庫設(shè)計的載體,目前市場上主流的數(shù)據(jù)庫產(chǎn)品也都具備這些能力。 隨著我國數(shù)據(jù)庫技術(shù)的發(fā)展,越來越多的國產(chǎn)數(shù)據(jù)庫產(chǎn)品已經(jīng)在檔案行業(yè)得到了很好的應(yīng)用,雖然在穩(wěn)定性、通用性等方面與國外主流數(shù)據(jù)庫還有差距,但已經(jīng)具備了在檔案等領(lǐng)域的應(yīng)用基礎(chǔ),甚至在安全性和本土化方面可以更好地滿足檔案業(yè)務(wù)的需要。
2 數(shù)據(jù)庫結(jié)構(gòu)
選擇了適合自己業(yè)務(wù)需要的數(shù)據(jù)庫后,就要開始目錄數(shù)據(jù)庫的建庫過程。文件級目錄數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)主要由幾類目錄數(shù)據(jù)構(gòu)成,結(jié)合檔案著錄規(guī)則,將文件級目錄數(shù)據(jù)結(jié)構(gòu)分為以下6 項,每項分為若干小項。
(1) 編號項: 主要包括序號、全宗號、機(jī)構(gòu)(問題) 代碼、機(jī)構(gòu)(問題)、件號、檔號。
(2) 題名與責(zé)任說明項: 主要包括題名、文號、責(zé)任者。
(3) 密級與保管期限項: 主要包括密級、保管期限。
(4) 時間項: 日期,年度。
(5) 備注項: 備注。
(6) 其他字段: 頁數(shù)、盒號、原文路徑、保管單位。
以中央檔案館在用的文件級目錄數(shù)據(jù)庫格式為例,共有18 個字段項,這些只是最基本的字段項,在實際應(yīng)用中,數(shù)據(jù)庫字段項不僅限于此。目錄數(shù)據(jù)庫結(jié)構(gòu)和字段項要求如表1 所示。
以下詳細(xì)介紹幾個重要的數(shù)據(jù)庫字段項。
(1) 檔號
整個目錄數(shù)據(jù)庫的核心字段項即檔號,檔號由全宗號、年度、機(jī)構(gòu)(問題) 代碼和件號拼接而成。通過該字段可以準(zhǔn)確了解一件檔案在一個全宗內(nèi)的相應(yīng)邏輯位置。由檔號和頁數(shù)組成的原文路徑字段標(biāo)示了文件在磁盤中存放的物理位置。檔號可以關(guān)聯(lián)起紙質(zhì)檔案和電子檔案,是檔案中不能重復(fù)的重要標(biāo)示。電子檔案中為了排序的需要,檔號是一個定長的字段項,件號會在相應(yīng)的位置補(bǔ)零。這一點(diǎn)和紙質(zhì)檔案目錄還是有區(qū)別的。
(2) 時間項
時間項主要有兩個字段,日期和年度,日期即文件的行成時間,字符型由8 位阿拉伯?dāng)?shù)字組成,在時間不可考的情況下補(bǔ)零。年度是文件形成所在年度,字符型由4 位阿拉伯?dāng)?shù)字組成。時間項中采用字符型而沒有使用數(shù)字型或者日期型,是由于檔案的特殊性,很多歷史檔案的年代不詳,一般情況下,會著錄成“0000”,如果使用數(shù)字型或者日期型的字段項,就沒有辦法記錄這樣的數(shù)據(jù)。
(3) 其他字段
在檔案著錄規(guī)則中沒有涉及這一部分的內(nèi)容,主要有盒號、原文路徑等字段。盒號是立卷改革后形成的,文件級檔案裝盒后,為了便于檔案保管員快速找到相應(yīng)紙質(zhì)檔案的物理位置設(shè)定的。原文路徑如前文所述是電子檔案存放在存儲介質(zhì)內(nèi)的相對路徑。
通過這些數(shù)據(jù)庫字段項,可以看到電子檔案文件級目錄數(shù)據(jù)庫結(jié)構(gòu)既滿足了歸檔文件整理規(guī)則中編目的要求,也體現(xiàn)了電子檔案在實際應(yīng)用中的特殊性。為了滿足通用性的要求和大多數(shù)檔案館、檔案室的使用便利,數(shù)據(jù)庫結(jié)構(gòu)中并沒有設(shè)計載體類型、電子文件格式等字段。另外,這個目錄數(shù)據(jù)庫的設(shè)計是為了符合中央檔案館的業(yè)務(wù)需要,僅僅是針對文書檔案的管理,沒有照片檔案、音視頻檔案的相關(guān)字段項,很多輔助的檢索項也沒有列出,如主題詞等。
對于不同的業(yè)務(wù)需要,數(shù)據(jù)庫設(shè)計中應(yīng)該有相應(yīng)的調(diào)整,增刪字段項。沒有一個目錄數(shù)據(jù)庫的設(shè)計可以涵蓋所有的檔案類型,片面追求“大而全”的數(shù)據(jù)庫結(jié)構(gòu)只會加重檔案業(yè)務(wù)系統(tǒng)的負(fù)擔(dān)。在數(shù)據(jù)庫設(shè)計中應(yīng)當(dāng)根據(jù)業(yè)務(wù)需要,有的放矢,做到“專而精” 就好。
四、結(jié)論
本文在電子檔案文件級目錄數(shù)據(jù)庫的設(shè)計過程中,介紹了電子檔案的定義和分類,闡明了電子檔案的著錄和歸檔文件編目的關(guān)系。通過實際的應(yīng)用,詳細(xì)研究了電子檔案文件級目錄數(shù)據(jù)庫的設(shè)計。
面對當(dāng)下這個信息資源如此重要的時代,大數(shù)據(jù)、云計算等最新技術(shù)如何應(yīng)用到檔案行業(yè),關(guān)鍵取決于電子檔案的采集、管理和應(yīng)用,僅僅依靠紙質(zhì)檔案數(shù)字化轉(zhuǎn)換生成的電子檔案,無法為數(shù)據(jù)挖掘提供有效的數(shù)據(jù)基礎(chǔ)。隨著電子公文系統(tǒng)的廣泛應(yīng)用,將會產(chǎn)生更多的原生電子檔案,這類電子檔案從合法性、真實性、有效性、完整性等方面還有大量的問題有待檔案工作者解決。只有加快電子文件和電子檔案的標(biāo)準(zhǔn)制定和立法,使更多的原生電子檔案得到收集、管理和應(yīng)用,讓“存量檔案數(shù)字化、增量檔案電子化”,才能讓檔案信息資源搭上移動互聯(lián)的快車,更便捷為社會所服務(wù)。