解放軍南京政治學院上海分院研究生 廖 凱
從l970年美國國家檔案和文件管理局(NARA)接收了第一批電子文件開始,其所保管的電子文件數量逐年增長。隨著美國邁入信息社會,加之政府行為的廣泛性和多樣性,美國國家檔案和文件管理局發現其所管理的電子文件不僅在數量上與日俱增,而且電子文件的種類日益豐富,除了數據文件、數據庫之外,還有電子郵件、地理空間數據、數字影像等,電子檔案管理變得越來越復雜和困難。此外,公眾迫切希望能夠通過在線的方式獲取國家檔案館中保存的電子文件。這些壓力和挑戰促使美國國家檔案和文件管理局決定自2000年起建立一個自動化程度很高的集成系統,在實現提供數字資源利用的同時,管理、維護各種類型的電子文件,保證其真實性、完整性和長期可讀性。該項目就是電子文件館(ERA)工程。下面就讓我們走近美國電子文件檔案館,揭開她的神秘面紗。
一、電子文件檔案館的相關工程
電子文件檔案館是一個十分龐大、復雜和綜合的系統,單憑一個機構將無法實現如此巨大的一個工程。因此,美國國家檔案和文件管理局(以下均用英文簡稱NARA)必需與其它組織合作才能實現目標。NARA于l997年在該機構的戰略計劃中就確定了這種合作策略,并依照該策略開始了它當前的電子文件檔案館(ERA)工程。NARA在全世界追蹤、創造和利用各種合作的機會,同時它還對所有有意參與該工程的合作者開放。
有六個關鍵的合作項目構成了電子文件檔案館的核心。其中基礎的一個合作項目是國際組織致力于開發的開放檔案信息系統(OAIS)參考模型。經由空間數據系統咨詢委員會的特許,美國國家航空和宇宙航行局(NASA)倡導的開放檔案信息系統清楚地說明了任何負責永久保管任何類型信息的系統的功能和結構。OAIS模型目前還是一個國際標準的草案。它最初的目的是滿足空間科學團體對研究所需數據的需求。考慮到發展開放檔案信息系統必須綜合各個學科領域的知識,NARA從l995年開始就積極投身于該項工作。OAIS目前還只是一個參考模型,對實際操作并不具有強制的指導性。對ERA而言,OAIS模型為其實體、功能,數據流和管理行為提供了一個整體上的框架。
ERA第二個基礎的合作項目是國際上關于電子系統內永久保證檔案真實性的研究(InterPARES)計劃。該計劃以在OAIS中詳細描述的保護檔案真實性的模型為基礎,其具體目標是:①確保歸檔的各種不同類型電子文件的真實性;②制定保護的電子文件的原則和實踐指南,以達到最大可能成功保存電子文件的目的;②詳細說明處理、輸入、輸出、控制和保護電子文件的機制;④建立評估用于執行這些操作的技術的可行性以及建立保護政策和標準的框架。
當OAIS和InterPARES奠定了ERA工程的基礎后,該工程的另一個核心合作項目是分布式目標計算平臺(DOCT)。DOCT是美國國防部遠景研究計劃機構與美國專利與商標局之間的一個合作項目。NARA于l998年參加了這次合作,主要研究電子文件在高性能計算機環境中的長期保存、創建、交換和管理問題。
第四個合作項目是美國國家科學基金資助的“全國參與合作的高級計算基礎設施建設”(NPACI)工程。通過NPACI工程,NARA資助了圣地亞哥超級計算機中心有關長久保存目標的研究。
第五個合作項目是NARA與美國陸軍研究工作實驗室和喬治亞工學院研究所合作開發的總統電子文件處理操作系統(PERPOS),該項目跟蹤、評估和開發應用與電子文件處理有關的先進信息技術。
最后一個合作項目是檔案工作平臺工程。該工程由美國國家歷史出版物和檔案委員會資助圣地亞哥超級計算機中心進行研究。該工程主要致力于解決一些小型的機構,如州和大學的檔案館的電子文件保護問題。
二、電子文件檔案館的發展策略
電子文件檔案館的發展策略由四個主要的部分構成。首先,它以正在發展的、用于支持電子政府、電子商務和科學研究的技術為基礎。采用這些基礎的技術開發的各種功能的應用軟件具有很大的獨立性,用于長期保護和訪問電子文件。它們包括標準的可擴展的置標語言(XM L)家族,以及用于緊密連接存儲資源和各種不同的計算機平臺的各種“搭橋”技術。第二,以這些通用的技術為基礎,該策略設想發展一個信息管理的架構,能夠適用于未來的信息保護技術和數字信息遷移技術。發展策略的第三個要素是電子文件檔案館的“框架”。該框架由一系列能夠滿足電子文件檔案館需求的解決方案構成,這些方案具有通用性,并能互相補充,同時廣泛的適用于各種類型的檔案。最后一個部分,也就是該工程的最終目標,就是濃縮各種信息技術與解決方案,形成ERA系統。
三、電子文件檔案館的虛擬工作區
ERA系統由三個虛擬的工作區組成。第一個工作區是存取工作平臺,在這里,電子文件將成批地進入電子文件檔案館;第二個工作區是檔案存儲區,在這里電子檔案被長期保存;第三個工作區是查詢工作區,在這里,研究人員的查詢提問被處理,然后為他們提供一組有序化的與查詢結果有關的電子檔案。
虛擬工作區有四個主要的特點。首先,每個工作區都具備處理周期性事務的能力。例如,存取工作平臺必須具備隨時備審核任何將文件送到ERA保存的送件人,是否具備送交該文件的權利的能力。第二,每個工作必能夠在必要的時候,方便特殊工具的使用。例如需要具備接收不同媒體的輸入功能。國家檔案館接收來自各種不同媒介上的電子文件。由于從機構形成這些文件到移交這些媒體可能存在巨大的時間差,NARA需要經常讀取這些陳舊的媒體上的電子文件。虛擬工作區的第三個關鍵的特征是它們能夠輕松地連接上各種中間設備,如軟件的協議或應用程序的界面。這樣一來,整個ERA系統能夠在任何時間相對地獨立于在其內部使用的特殊的信息技術。如果一個工作區內的硬件或軟件成分被替換了,該系統的整體功能能夠通過修改用于整合工作區的中間設備來得到維持,而不需要改變其它工作區的任何設備。第四個關鍵的特性是,虛擬工作區是依據功能來定義的,這就避免了采用不同的技術來實現相同的功能,也就是說三個虛擬工作區將可能分享同一技術。例如,所有的三個工作區都需要具備存儲和管理數據的能力。
將所有的ERA虛擬工作區結合在一起的“膠水”是正在由“全國參與合作的高級計算基礎設施建設”(NPACl)工程發展的持久穩固的對象保護架構。在這種方式保護下的“對象”可能是任何需要被保護的數字信息。對檔案而言,該范圍可能包括:案卷,全宗,全宗群,甚至整個檔案館的館藏;而這些檔案可能是個人檔案,也可能是機構檔案。
要長久穩定地保護電子檔案,關鍵是具備處理具有復雜多變結構的電子文件的能力,將電子文件轉換為可以長久保存的形式。這需要確定和標記需要被保護的電子文件的所有重要特征。這些特征在ERA內用正規的模型?XML文獻類型定義(DTDS)來表達。
文件的外型可以通過可擴展的樣式表來收集。全宗和其它文件的集合可以依照DTDs或XML模型來建模。文件被置標或封裝上可適用的模型所定義的元數據,同時除去了文件中必須依靠特定硬件和軟件的技術特征,或其它受已過時的技術制約的特征,這樣轉化工作就完成了。
總之電子文件檔案館不是一個一般的系統,而是一個綜合的系統的和動態的實現檔案工作的方式,該方式必須能夠跨越時空,持續的保存和利用真實可靠的電子文件。認為僅僅建立一個系統就能滿足電子文件的保管需求是目光短淺的看法。任何一個被視為最終解決方案的系統,即使解決了目前所有已知媒體的老化問題,但以檔案的視點看,仍將在一個相對短的時間內變得落后和陳舊。信息技術的發展將永遠不會停止。因此解決數字化保護的問題,必須具備適應和整合不斷改變的技術以及不可預知的技術產品的能力。
四、電子文件檔案館的工程進展情況
美國電子文件檔案工程于l998年啟動。在最初的三年里,EAR工程主要致力于電子文件檔案的可行性研究,并弄清楚究竟有那些問題需要解決。由于ERA工程涉及計算機科學、工程學和檔案學等領域的基本問題,因此美國國家檔案文件管理署(NARA)與美國聯邦政府機構、州政府、計算機科學家、學術機構、私人企業以及他國家的檔案館進行了通力合作。目前,電子文件檔案館的設計工作已基本完成,接下來的主要工作就是將電子文件檔案館由設想變為現實。
要實現這一目標還有,許多具體的技術問題需要解決。為此,專門負責電子文件檔案館工程的“ERA項目管理辦公室”(PMO)設立的專門的電子郵箱,鼓勵企業參與ERA工程,并將本公司設想的有關ERA的產品、解決方案與結構設計,通過電子郵件(ERA.Acquisition@nara.gov)發送致ERA采購小組。這些產品與解決方案主要應涉及以下領域:①LXM家族工具,包括創建、轉換、顯示、管理和存貯工具②網絡服務與整合搭橋軟件;③存儲管理系統;④數據庫管理系;⑤工作流程工具;⑥檢索工具和技術。
通過初步審查后,PMO將與那些有誠意并有實力的公司建立起面對面的交流,最終確定與哪些公司建立合作。雖然在建設電子文件檔案館的道路上困難重重,但美國國家檔案文件管理署(NARA)對ERA的最終實現仍然充滿信心。NARA初步的目標是在2007年將ERA系統投入使用,并在將來一個相當長的時間內將其不斷發展完善。
(郭紅解、倪政華摘自《檔案學》2004年第3期)
從l970年美國國家檔案和文件管理局(NARA)接收了第一批電子文件開始,其所保管的電子文件數量逐年增長。隨著美國邁入信息社會,加之政府行為的廣泛性和多樣性,美國國家檔案和文件管理局發現其所管理的電子文件不僅在數量上與日俱增,而且電子文件的種類日益豐富,除了數據文件、數據庫之外,還有電子郵件、地理空間數據、數字影像等,電子檔案管理變得越來越復雜和困難。此外,公眾迫切希望能夠通過在線的方式獲取國家檔案館中保存的電子文件。這些壓力和挑戰促使美國國家檔案和文件管理局決定自2000年起建立一個自動化程度很高的集成系統,在實現提供數字資源利用的同時,管理、維護各種類型的電子文件,保證其真實性、完整性和長期可讀性。該項目就是電子文件館(ERA)工程。下面就讓我們走近美國電子文件檔案館,揭開她的神秘面紗。
一、電子文件檔案館的相關工程
電子文件檔案館是一個十分龐大、復雜和綜合的系統,單憑一個機構將無法實現如此巨大的一個工程。因此,美國國家檔案和文件管理局(以下均用英文簡稱NARA)必需與其它組織合作才能實現目標。NARA于l997年在該機構的戰略計劃中就確定了這種合作策略,并依照該策略開始了它當前的電子文件檔案館(ERA)工程。NARA在全世界追蹤、創造和利用各種合作的機會,同時它還對所有有意參與該工程的合作者開放。
有六個關鍵的合作項目構成了電子文件檔案館的核心。其中基礎的一個合作項目是國際組織致力于開發的開放檔案信息系統(OAIS)參考模型。經由空間數據系統咨詢委員會的特許,美國國家航空和宇宙航行局(NASA)倡導的開放檔案信息系統清楚地說明了任何負責永久保管任何類型信息的系統的功能和結構。OAIS模型目前還是一個國際標準的草案。它最初的目的是滿足空間科學團體對研究所需數據的需求。考慮到發展開放檔案信息系統必須綜合各個學科領域的知識,NARA從l995年開始就積極投身于該項工作。OAIS目前還只是一個參考模型,對實際操作并不具有強制的指導性。對ERA而言,OAIS模型為其實體、功能,數據流和管理行為提供了一個整體上的框架。
ERA第二個基礎的合作項目是國際上關于電子系統內永久保證檔案真實性的研究(InterPARES)計劃。該計劃以在OAIS中詳細描述的保護檔案真實性的模型為基礎,其具體目標是:①確保歸檔的各種不同類型電子文件的真實性;②制定保護的電子文件的原則和實踐指南,以達到最大可能成功保存電子文件的目的;②詳細說明處理、輸入、輸出、控制和保護電子文件的機制;④建立評估用于執行這些操作的技術的可行性以及建立保護政策和標準的框架。
當OAIS和InterPARES奠定了ERA工程的基礎后,該工程的另一個核心合作項目是分布式目標計算平臺(DOCT)。DOCT是美國國防部遠景研究計劃機構與美國專利與商標局之間的一個合作項目。NARA于l998年參加了這次合作,主要研究電子文件在高性能計算機環境中的長期保存、創建、交換和管理問題。
第四個合作項目是美國國家科學基金資助的“全國參與合作的高級計算基礎設施建設”(NPACI)工程。通過NPACI工程,NARA資助了圣地亞哥超級計算機中心有關長久保存目標的研究。
第五個合作項目是NARA與美國陸軍研究工作實驗室和喬治亞工學院研究所合作開發的總統電子文件處理操作系統(PERPOS),該項目跟蹤、評估和開發應用與電子文件處理有關的先進信息技術。
最后一個合作項目是檔案工作平臺工程。該工程由美國國家歷史出版物和檔案委員會資助圣地亞哥超級計算機中心進行研究。該工程主要致力于解決一些小型的機構,如州和大學的檔案館的電子文件保護問題。
二、電子文件檔案館的發展策略
電子文件檔案館的發展策略由四個主要的部分構成。首先,它以正在發展的、用于支持電子政府、電子商務和科學研究的技術為基礎。采用這些基礎的技術開發的各種功能的應用軟件具有很大的獨立性,用于長期保護和訪問電子文件。它們包括標準的可擴展的置標語言(XM L)家族,以及用于緊密連接存儲資源和各種不同的計算機平臺的各種“搭橋”技術。第二,以這些通用的技術為基礎,該策略設想發展一個信息管理的架構,能夠適用于未來的信息保護技術和數字信息遷移技術。發展策略的第三個要素是電子文件檔案館的“框架”。該框架由一系列能夠滿足電子文件檔案館需求的解決方案構成,這些方案具有通用性,并能互相補充,同時廣泛的適用于各種類型的檔案。最后一個部分,也就是該工程的最終目標,就是濃縮各種信息技術與解決方案,形成ERA系統。
三、電子文件檔案館的虛擬工作區
ERA系統由三個虛擬的工作區組成。第一個工作區是存取工作平臺,在這里,電子文件將成批地進入電子文件檔案館;第二個工作區是檔案存儲區,在這里電子檔案被長期保存;第三個工作區是查詢工作區,在這里,研究人員的查詢提問被處理,然后為他們提供一組有序化的與查詢結果有關的電子檔案。
虛擬工作區有四個主要的特點。首先,每個工作區都具備處理周期性事務的能力。例如,存取工作平臺必須具備隨時備審核任何將文件送到ERA保存的送件人,是否具備送交該文件的權利的能力。第二,每個工作必能夠在必要的時候,方便特殊工具的使用。例如需要具備接收不同媒體的輸入功能。國家檔案館接收來自各種不同媒介上的電子文件。由于從機構形成這些文件到移交這些媒體可能存在巨大的時間差,NARA需要經常讀取這些陳舊的媒體上的電子文件。虛擬工作區的第三個關鍵的特征是它們能夠輕松地連接上各種中間設備,如軟件的協議或應用程序的界面。這樣一來,整個ERA系統能夠在任何時間相對地獨立于在其內部使用的特殊的信息技術。如果一個工作區內的硬件或軟件成分被替換了,該系統的整體功能能夠通過修改用于整合工作區的中間設備來得到維持,而不需要改變其它工作區的任何設備。第四個關鍵的特性是,虛擬工作區是依據功能來定義的,這就避免了采用不同的技術來實現相同的功能,也就是說三個虛擬工作區將可能分享同一技術。例如,所有的三個工作區都需要具備存儲和管理數據的能力。
將所有的ERA虛擬工作區結合在一起的“膠水”是正在由“全國參與合作的高級計算基礎設施建設”(NPACl)工程發展的持久穩固的對象保護架構。在這種方式保護下的“對象”可能是任何需要被保護的數字信息。對檔案而言,該范圍可能包括:案卷,全宗,全宗群,甚至整個檔案館的館藏;而這些檔案可能是個人檔案,也可能是機構檔案。
要長久穩定地保護電子檔案,關鍵是具備處理具有復雜多變結構的電子文件的能力,將電子文件轉換為可以長久保存的形式。這需要確定和標記需要被保護的電子文件的所有重要特征。這些特征在ERA內用正規的模型?XML文獻類型定義(DTDS)來表達。
文件的外型可以通過可擴展的樣式表來收集。全宗和其它文件的集合可以依照DTDs或XML模型來建模。文件被置標或封裝上可適用的模型所定義的元數據,同時除去了文件中必須依靠特定硬件和軟件的技術特征,或其它受已過時的技術制約的特征,這樣轉化工作就完成了。
總之電子文件檔案館不是一個一般的系統,而是一個綜合的系統的和動態的實現檔案工作的方式,該方式必須能夠跨越時空,持續的保存和利用真實可靠的電子文件。認為僅僅建立一個系統就能滿足電子文件的保管需求是目光短淺的看法。任何一個被視為最終解決方案的系統,即使解決了目前所有已知媒體的老化問題,但以檔案的視點看,仍將在一個相對短的時間內變得落后和陳舊。信息技術的發展將永遠不會停止。因此解決數字化保護的問題,必須具備適應和整合不斷改變的技術以及不可預知的技術產品的能力。
四、電子文件檔案館的工程進展情況
美國電子文件檔案工程于l998年啟動。在最初的三年里,EAR工程主要致力于電子文件檔案的可行性研究,并弄清楚究竟有那些問題需要解決。由于ERA工程涉及計算機科學、工程學和檔案學等領域的基本問題,因此美國國家檔案文件管理署(NARA)與美國聯邦政府機構、州政府、計算機科學家、學術機構、私人企業以及他國家的檔案館進行了通力合作。目前,電子文件檔案館的設計工作已基本完成,接下來的主要工作就是將電子文件檔案館由設想變為現實。
要實現這一目標還有,許多具體的技術問題需要解決。為此,專門負責電子文件檔案館工程的“ERA項目管理辦公室”(PMO)設立的專門的電子郵箱,鼓勵企業參與ERA工程,并將本公司設想的有關ERA的產品、解決方案與結構設計,通過電子郵件(ERA.Acquisition@nara.gov)發送致ERA采購小組。這些產品與解決方案主要應涉及以下領域:①LXM家族工具,包括創建、轉換、顯示、管理和存貯工具②網絡服務與整合搭橋軟件;③存儲管理系統;④數據庫管理系;⑤工作流程工具;⑥檢索工具和技術。
通過初步審查后,PMO將與那些有誠意并有實力的公司建立起面對面的交流,最終確定與哪些公司建立合作。雖然在建設電子文件檔案館的道路上困難重重,但美國國家檔案文件管理署(NARA)對ERA的最終實現仍然充滿信心。NARA初步的目標是在2007年將ERA系統投入使用,并在將來一個相當長的時間內將其不斷發展完善。
(郭紅解、倪政華摘自《檔案學》2004年第3期)