“大數據” 時代檔案信息安全管理新思考
繼聯合國推出“全球脈動”項目,希望利用“大數據”促進全球經濟發展后,2012年3月,美國奧巴馬政府集合美國國防部、能源部、國家科學基金等六個聯邦部門和機構,宣布推出“大數據的研究和發展計劃”。該計劃將“大數據”作為全球性發展戰略計劃,大力推動及改善與大數據相關的采集、組織、分析、決策工具及技術,并最終確立了“大數據”作為未來信息技術發展的核心地位。值得關注的是,美國政府在大數據計劃中特別提到了“國家檔案和文件署(NARA)”一項。我國的檔案界雖未提出具體規劃,但關注新技術、新方法,超前思考檔案工作的未來圖景一直是研究者和管理者的使命。檔案安全歷來就包括實體安全和信息安全。信息安全正迎來大數據時代和云計算環境的新風險和新挑戰,這一新環境下的信息安全盡管與以往的信息安全有著歷史的邏輯承續,但形成了一些新的特點,其風險鏈、風險域和風險度都有了諸多新變化,呈現出隱蔽的關聯性、集群的風險性、泛在的模糊性、跨域的滲透性以及交叉的復雜性等特點,需要加強研究。在深入研究之前區別一下相關概念:云計算是你在做的事,而大數據是你擁有的東西。大數據是在云計算基礎架構之上的應用形式。
1 檔案數據采集安全
檔案數據采集包括電子文檔的收集和紙質檔案的數字化處理兩個部分。
1.1 電子文檔收集范圍擴展、內容即時
從某種意義上來說,“大數據”的一個重要理念就是掌握的數據量越大、內容越豐富,從中推斷出的信息就越多。具體到檔案工作,無論是從檔案的憑證價值和情報價值,還是檔案的現實價值和長遠價值,抑或檔案的第一價值和第二價值來考慮,就電子文檔收集而言,可能需要重新思考歸檔的范圍和形式。
大數據往往是唯一的樣本數據集。舉例而言,那些測量交通、行為、土壤酸堿、雨量、風力等物理信號的監控設備,或視頻監控以及其他類型的器材所連續積累的時段性或實時性的數據,都單獨記錄著一個唯一的活動片段,一旦數據丟失,這個片段就隨之永遠消失了。從檔案收集的齊全、完整、真實、有效和數據安全考慮,這些數據文檔都應該實時在線歸檔,并同時保存離線副本。另一個比較典型的案例就是美國政府的?聯邦政府Web2.0使用情況和檔案價值報告?。該報告中提到:在社交平臺上產生的信息,只要具有業務價值、證據價值和背景價值,就可以認定為歸檔的文件。我國迄今為止雖對這類內容無具體的歸檔規定,但根據大趨勢判斷,檔案館的收集范圍需要主動擴展。
1.2 紙質檔案數字化過程和結果安全
紙質檔案數字化的過程安全是指在檔案數字化過程中沒有發生危害檔案實體和信息安全的行為。因此,一系列的規章制度和規范的操作流程是必要的。首先,要考察數字化提供服務單位的資質和信譽。其次,要建立完善的管理制度,例如:案卷不準擅自帶離加工現場,當日數字化的案卷必須當日歸庫;案卷進出庫有嚴格的交接、檢查手續等。最后,在數字化的過程中嚴格遵守國家標準?中華人民共和國行業標準(DA/T31-2005)紙質檔案數字化技術規范?,檔案的拆卷要以不破壞檔案裝訂原貌為基礎,在掃描過程中保證案卷整潔并確保掃描圖像與原件一致。
紙質檔案數字化的結果安全是指數字化后的檔案數據有效、可用。因此檔案數字化后必須經過電子檔案質量檢查這一環節,這也是對檔案數字化結果安全性監測的重要一步。主要包括三個過程或環節:一是質量抽查,對于不合格的數據要及時返工重掃;二是數據檢測,主要內容包括病毒檢測、運行檢測和數據核對等三個方面;三是數據利用檢測,主要是將全部數據直接掛接到檔案管理系統后,對外提供利用時,是否出現錯誤或者使用者發現的負責人進行處理。
2 檔案信息管理系統安全
從上世紀90年代國內最早的檔案管理軟件產生至今,已經經歷了近20年的發展。隨著計算機及網絡技術的發展,數字化檔案管理方式在分布形式上從最初的單機版(C/S 架構)、到網絡版(B/S架構)、直至發展到最新的面向服務的數據平臺(SOA 架構);在功能上則從單一的僅實現簡單檔案管理的軟件、到檔案管理軟件與OA 系統整合的數據庫、再到現今的將數字化檔案管理方式滲透到整個工作流(workflow)的數據庫平臺。檔案大數據是在檔案方面涉及的資料量規模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的的信息。因此,檔案信息管理系統的安全在很大程度上決定了檔案信息的安全。
2.1 數據支持平臺安全
前文提到的美國政府的大數據計劃中的“國家檔案和文件署(NARA)”,計劃為十億電子記錄(CI-BER)的網絡基礎設施是一個聯合機構主辦的測試平臺,這個多機構主辦的網絡基礎設施,對國家檔案館87萬多樣化的數字記錄的文件和信息的收集,可稱為計算研究所的文藝復興。這個試驗臺將評估技術和方法,超大規模數據收集,以支持可持續的訪問。
縱覽國內外實踐,構建檔案大數據平臺至少要實現四個層次的部署:一、云服務商提供全面、可視化的服務,尤其是檔案大數據服務委托方有權分析基礎設施中發生的所有事項;二、收集海量檔案數據,并解決各個數據庫的兼容問題;三、增強更快識別目標、鎖定威脅來源和敵對事件的能力;四、基礎設施具有可擴展性,可以執行短期和長期的分析。監控管理、風險控制、規則遵從是對檔案云數據支持平臺的最基本要求。
2.2 數據計算環境安全
傳統的數據庫系統不能有效地處理大數據,一是因為這些系統的設計無法應對現在的情況,現如今數據類型日益復雜,結構化數據所占比例越來越低;二是由于它無法既迅速又比較經濟地對系統進行拓展。不僅是硬件程序設計環節,從數據管理的角度看,由于少量的數據樣本容易進行單獨的測試和監控,檔案大數據計算平臺上存儲的數據首先要有詳細的類別劃分,其次才是存儲和計算。
檔案數據庫的數據分析完成后,是要將結果呈現給不同的人群使用的。針對同一條查詢指令,應該讓不同角色的人群看到不同的結果信息,即查詢所反饋的結果是不一樣的:技術人員讀取有關系統和設置管理的數據;檔案工作人員查看、操作與自身業務范圍相關的內容;普通利用者可以得到經審核公開的電子文本或目錄。大數據時代的檔案安全解決方案應該包括足夠強大的、能夠針對不同層次的人群提供不同的展現界面和工具。
同時,檔案大數據系統必須具有目錄整理、檔案采集、檔案審核、系統維護等功能,并利用現化代網絡技術,實現多人多客戶端操作。
3 檔案提供利用安全
通常情況下,大數據實施的障礙來自文化而非技術。很多組織之所以沒能成功完成大數據項目,正是因為他們未能認識到大數據對改進其核心業務的作用。正如1893年立式文件柜的出現最終解決了紙質文件的存儲和檢索的困難,檔案大數據必將對檔案信息的查找利用帶來顛覆性的變革:檔案大數據的核心不是擁有數據,而是拿這些檔案數據去做了什么。
檔 案大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些有較高價值的飽含歷史意義的數據進行專業化處理。如果把大數據比作一種產業,那么這種產業實現盈利的關鍵,在于提高對數據的“加工能力”,通過“加工”實現數據的“增值”。這種主動提供利用的檔案信息不僅僅是提供原始的檔案信息,還應該同時具有內容分析、結果預測、輔助決策等功能。舉例來說,我們在購物網站上的查詢、購買內容被記錄后,經常可以收到商家的商品推薦;在搜索網站上的檢索歷史被記錄后,經常會在該網站的界面看到相關的內容推送。對于這些“智能顯示”,普通人往往有這樣一種認識:對有利于我的,會覺得大數據方便實用;對不利于我的,會疑問是誰在后臺收集了我的隱私。基于絕大多數人的行為是可以預測的,相似的產品和服務被推薦給我們,很多情況下是對的,但這是以真正個性化和“長尾”喪失為代價的。截至2011年,各級國家檔案館館藏已達3.3億卷,到2020年,各級國家檔案館館藏案卷將達6億多卷。如此大量的檔案信息,如果檔案管理軟件在程序設計上能夠達到數據實時成功抓取,檔案利用服務的水平與今日相較必不可同日而語。
大數據時代的檔案信息安全是主動地提供檔案數據安全保障,而不是等出現了無法挽回的損失再行補救。目前所有的相關研究都是基于這一目的的超前考慮,隨著科學技術的進步及相關技術的發展,這些研究結果必將不斷修正才能更好地為實際工作服務。