檔案數據庫建設基本程序與要求
利用現代信息技術,將檔案信息和檔案的管理信息,按照一定的規則和格式轉換成數字信息,建立起檔案信息資源數據庫。檔案數據庫,從廣義的角度講,就是以特定方式組織起來的檔案數據集合。具體地講,就是為滿足多個用戶多種應用需要,按照一定的數據模型將本單位所保管的檔案信息存貯在計算機中以備使用的數據形式。
檔案數據庫的應用能夠實現對數據的集中化控制,將所有相互聯系的數據集中在一個數據庫中進行統一的維護和管理,數據的格式具備一定的標準性,便于大批量的錄入和修改及檢索。不同用戶只需從中取出所需的部分數據,減少了數據的冗余度,集中化管理避免了相同數據的重復出現而降低檢索速度,減少數據冗余和存儲空間的浪費,實現了數據共享,數據庫系統的最重要的一個優點就是數據與應用程序相互獨立,保證了各類應用程序對數據的需求,實現數據共享,充分發揮檔案數據庫的作用的同時也提高了檔案的利用率。
1 檔案數據庫建設原則
檔案信息數據庫設計的總則應符合國際和國家規則,便于管理、傳輸、檢索,符合檔案著錄規則,易于維護,通用性強,便于各系統應用及聯系。
1.規范化原則
檔案數據庫如果不規范,比如數據著錄項目的字段名與字段類型及著錄項目的總數等各不相同,就會在客觀上為檔案數據庫的規模化、網絡化利用設置障礙。堅持規范化原則就可以扭轉數據格式和元數據不統一的局面,建立一個操作性強、適用面廣、科學實用的檔案信息資源數據庫系統。
檔案數據庫的規范化直接關系到檔案信息資源檢索體系的統一,它涉及檔案業務工作的許多環節,概括起來主要有三個方面:首先是檔案著錄標引規范,以保證各級檔案部門所生成檔案信息條目一致、準確及具有自我說明能力;二是檔案信息數據庫結構規范,確保各級檔案部門所生成的檔案機讀目錄具有統一方便的檢索與交換格式;三是檔案計算機管理軟件開發技術規范,用于營造統一的信息平臺,將各級檔案部門所生成的檔案機讀目錄集成于一體。
檔案著錄必須統一規范,否則就會在出現同一事物或同一人物具有不同的名稱,而不同的事物或不同的人物卻具有同一名稱等一系列問題時,造成同一檢索點的條目前后不一致的現象,影響檔案機讀目錄數據檢索和利用的質量和效率。
統一檔案機讀目錄數據庫結構,對于檔案信息化和網絡化建設具有至關重要的意義。數據庫結構的統一,是用于消除檔案資源數據庫聯網檢索數據對接時出現的不規范現象。統一使用規范化、標準化的機讀目錄數據庫格式,有助于簡化網上的檔案機讀目錄數據交換與檢索,從而能夠使來源不同的數據庫很容易地結合在一起,有利于在網上對檔案機讀目錄信息的規模化利用,發揮出整體信息資源體系的優勢。
2.檢索優先原則
數據庫建設旨在提供豐富的信息資源,實現資源共享,尤其是在網絡環境下必須要求擁有完備的檢索功能體系。檢索界面簡潔明了,易于操作,提供多途徑檢索。如主題詞、責任者、分類號等,并能實現各項相互間的“與”“、或”“、非”的邏輯組配檢索,而且可實現標引詞的位置算符檢索,在一次檢索結果的基礎上實現多次循環檢索,以提高查全率和查準率。數據庫還應根據用戶的要求,提供多種顯示輸出方式,以便用戶根據自己的需要挑選滿意的信息輸出形式。
其次,規范的標引體系系統。數據庫信息檢索的實現以其對信息的標引為基礎,以檢索軟件為依托,在網絡條件下進行資源共享。所錄入的檔案信息等有關信息的標引必須統一規范與標準,實現與因特網上信息資源檢索的接軌。實現對檔案信息規范化的標引必須以一定的“分類法”與“詞表”為基礎。前者是實現對檔案知識學科的標引,后者是實現對檔案的主題內容的標引。所以,應該根據《檔案著錄規則》、《中國機讀檔案規范格式》、有關檔案及文獻數據的標準標引,實現用戶理想的檢索效果。
3.可持續發展原則
可持續發展原則首先是數據的可持續發展。檔案館保存的大量檔案資料是天然優勢,能保證數據庫的數據來源不斷。數據源是數據庫建庫的根本,也是不斷豐富完善數據庫數據的關鍵。其次是數據庫系統的可持續發展,隨著技術與需求的發展,數據庫要能不斷地更新維護。再有是數據庫開發在人力和經費等條件上要有所保障,決不能半途中斷,這是數據庫開發的基本保障。
2 檔案數據庫建設基本程序
1.前處理工作
檔案信息的收集。網絡中的檔案信息的主要來源是傳統檔案的數字化和電子文件。除此之外,一些檔案機構和管理部門也是數值數據和事實數據的重要來源。在建立相應的數據庫時,必須首先確定檔案信息的收集范圍和來源,按要求進行全面的收集。
檔案信息的前處理。這是一項基礎工作,為數據庫提供經過加工處理的數據。主要是將檔案的內容特征和形式特征著錄、標引出來。著錄標引必須達到規范化、標準化的要求。這是建立數據庫的必要過程,也是保證檢索質量的前提條件。
確定數據結構。這項工作主要由技術人員根據檔案人員提供的著錄信息來完成。
2.數據采集、錄入、校對工作
將檔案信息前處理的結果轉化成機讀數據。錄入過程需要較嚴格的校對審核。如審查字段的數據形式是否正確,字段長度與確定的結構長度是否符合,各種標識符號是否有誤等。這其中還可能包括對不同格式的數據進行轉換等工作。
3.數據質量驗收、匯總、入庫和網絡發布
由于計算機硬件不斷更新,計算機網絡技術迅猛發展,數據庫系統發生著很快的變化。雖然它的基本組成部分仍然是數據、軟件和硬件,但是它們的范圍、規模和復雜性都大大地擴展了。其中最主要的變化就是數據庫產品具有了Web連接性,利用網絡作為查詢和發布庫中數據的手段,數據庫方式成為網絡信息資源組織與發布的重要方式。對于檔案信息資源來說,數據庫也是其在網上的有序組織形式。數據庫是信息資源存儲和開發利用的基礎,是信息資源共享的先決條件,是信息系統的核心。數據庫技術與網絡技術的融合極大地方便了檔案信息的管理與開發利用,提高了檔案工作效率。因此許多檔案機構都把數據庫建設作為當前檔案信息發布的核心工作。檔案數據庫建設越有成效,網絡檔案信息管理與服務也就越有保證。
3 檔案數據庫建設質量保障措施
檔案信息資源是檔案信息化的核心和基礎,必須采取措施保證檔案數據庫建設的效率和質量。
1.認真做好工作流程調查,確定工程深度和進度。
在檔案數據庫系統建設過程中,如果不能提出一個工程的總目標和當前工程要達到的目的,就會造成工程缺少計劃性,想到哪干到哪,到處打補丁做改動。于是施工周期被不斷延長,開發的檔案數據庫系統成了“胡子工程”。因此,要做好數據庫系統一定要明確工作流程,明確流程的每一步都要干些什么,畫出明晰的工作流程圖,嚴格按流程圖組織施工。這樣做既便于實施人員按既定的明確思路工作,易于控制系統的整體質量,也可以盡快看到工作的成果,對系統進行評價,提出下一階段的工作目標,進而逐步實現整個系統需求中提出的目標。
檔案數據庫建設是一個極龐大的系統工程,也是一項長期的持續性任務,需要的人力、物力、財力很多,不可能一蹴而就。而且一進入實施階段,就可能要持續進行下去。因此,抓好推進策略是保證其實施成功的關鍵所在。
2.做好新開發數據庫的檢測工作,避免工作漏洞。
對系統進行分調和總調,解決各種技術問題,使之達到系統設計要求的各項指標,實現各項功能,彌補在系統設計中考慮不周之處,使系統能夠正常運行。
按照系統設計的要求對檔案數據庫系統進行測試,是一個不可缺少的環節。測試的內容在系統設計中應有明確規定,大體上包括:功能測試、數據完整性和準確性的測試、安全測試、系統響應時間的測試以及各項錯誤信息的保護功能的測試等。根據測試結果和試運行的實際情況對檔案數據庫系統進行評價。任何一個數據庫系統都是人為工程,人為造成的缺點或漏洞難以完全避免。有些對系統正常運行有影響的問題要及時發現,立即改正。有些屬于需求分析中的疏漏但又不影響系統使用的問題,可以等到系統更新時再解決。
3.重視數據庫運行和使用人員的培訓工作,確保數據庫的使用壽命。
當軟件提交使用后,軟件進入運行維護階段。該階段的主要任務是使軟件持久地滿足用戶的需求。由于系統操作者水平參差不齊,許多操作使用人員并不擁有掌握數據庫系統的能力,所以必須加強培訓,提高使用者這方面的能力。由于信息技術的飛速發展,培訓應是多方面的,不僅是簡單的系統操作能力,還應該包括計算機操作系統使用能力的培訓,使用者對系統不再只是簡單地掌握,還能夠對計算機系統的使用方法有比較深入的認識,這樣當系統技術有所變化的時候就能較好地應對。只有這樣,檔案數據庫系統才能在整個生命周期內正常地發揮作用。