數字檔案館,作為傳統實體檔案館在信息時代的新型組織形式,是實體檔案館在信息時代不斷創新和發展的必然,是迎接知識經濟時代挑戰,拓展傳統實體檔案館功能,滿足用戶需求,提供個性化、多樣化服務的關鍵,也是提高社會檔案意識的新契機。那么,如何從數字檔案館浩如煙海的大量數字化資源中提煉、挖掘出有價值的,對數字檔案館進行知識積累、知識創新有著數據支撐作用的有效信息,這是未來數字檔案館建設所面臨的重要課題。數據挖掘技術正是解決這一難題的有效途徑,數據挖掘是當今計算機領域的熱點,其成果也廣泛應用于圖書情報領域,筆者受這些研究的啟發,力圖就數據挖掘技術在基于知識管理的數字檔案館中的應用進行探討。
1.數據挖掘定義與分類
1.1數據挖掘的定義
數據挖掘是一門很廣義的交叉學科,脫胎于計算機,雖然已應用到諸多領域,圖書、情報界的實踐也已經充分驗證其價值,但在檔案界,數據挖掘仍然被當成深奧的技術和理論,很多檔案工作者對個這概念還是云霧迷蒙,比較模糊。那么什么是數據挖掘呢?數據挖掘(Data Ming),就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在的有用信息和知識的過程①。這個過程的目的是為了發現隱藏在大量數據泥沙中的 “知識金礦”,因此,將數據挖掘定義為“數據中的知識挖掘”更為恰當②。所以,數據挖掘也被人稱為知識挖掘、知識抽取等。
1.2數據挖掘的分類
數據挖掘可以根據挖掘任務的不同,把數據挖掘方法分為概念描述、關聯分析、分類分析、聚類分析、偏差檢測等多種類型,具體如下:
1.2.1概念描述(Concept description)
就是通過分析和比較,將某類相互關聯的數據進行匯總,歸納出此類對象的相關特征,對關于此類的大量信息進行描述,這些描述是抽象的,有意義的。它的類型有兩種:特征性描述和區別性描述。1)特征性描述適用于描述某類對象的共同之處,例如,某檔案館的檔案數據庫中存在大量的用戶基本信息,其中涉及:姓名、年齡、工作、利用喜好等信息,如果對歷史研究者進行描述,很有可能得出以下結果:以高校教師、學生為主,以編修各種志書、撰寫史學研究文章為目的。2)區別性描述,用于描述兩個或多個類對象之間的差異,例如,對企業用戶和歷史研究者特征進行比較,也許能得出以下規則:主要利用生產管理和科研管理方面的檔案信息,以取得一定經濟效益和社會效益為目的。
1.2.2關聯分析(Association analysis)
就是描述數據庫中數據項之間存在的相關特性,即挖掘出隱藏在數據項之間的相互關系,具體來說,若其中兩項數據或多項數據存在著某種關聯,其中一項數據就能依據其它數據進行預測。關聯分析能發現用戶利用不同檔案信息之間的關聯,分析預測用戶利用模式。
1.2.3分類分析(Classification analysis)
就是將數據庫中的數據有序的聚合在一起,有助于人們對事物的全面把握③。分類分析可分為結構化數據分類分析,如關系數據庫中的數據,和非結構化數據分類分析,如文本數據。分類分析的具體過程為:用一組特征不同的類別為一個數據集合中的數據進行分類,然后找出描述這些數據的模型,并根據這個模型將數據劃分到不同的類別中,利用這個模型可以預測未知的數據。分類分析可以通過已有用戶檔案數據庫中的數據,揭示用戶特征和用戶利用行為之間的關系,并按照影響用戶行為的程度對這些數據進行分類,用來預測未來的用戶行為。
1.2.4聚類分析(Clustering analysis)
就是將數據庫中的數據劃分為不同數據類的過程,它與分類分析不同,前者是在預先不考慮已知分類模型的情況下,把數據放入不同的分類中,聚類的目的是根據最大化類內的相似性,最小化類間的相似性這一原則合理的劃分數據集合④,簡單來說就是使類內的差別最小化,類間的差別最大化,這樣就可以把類似的數據組織在一起并導出某種規則。
1.2.5偏差檢測(Deviation detection)
就是通過發現數據庫中的異常情況對偏差的數據進行分析的過程,重點是發現數據中的異常變化,數據庫中的數據變異可能是人為錯誤引起的,更有可能是數據更新等自然變化的結果。偏差檢測的意義在于可以有效排除大量不相關的數據。例如,某檔案館在形成某種編研成果之前,先在用戶信息數據庫中進行檢索,并與檔案館數據庫中的已有資源結合,再用數據挖掘技術將不想關的用戶利用模型排除,把剩下的作為重點,制定有針對性的編研策略。
2.基于知識管理的數字檔案館中的數據挖掘
前面已經介紹了數據挖掘的概念及模式,那么基于知識管理的數字檔案館的數據挖掘應該是怎樣的呢?筆者認為首先應對數字檔案館資源、知識管理和數據挖掘的關系定位。數字檔案館的知識資源要被組織和發現,這是數字檔案館實現現代化科學管理,提供快捷、優質服務的基礎。對數字檔案館實施知識管理是應對知識經濟時代挑戰,最大化數字檔案館知識資源潛力,最終實現數字檔案館知識創新的必然要求。沒有實施知識管理的數字檔案館無法滿足未來發展的需要,缺乏管理對象的知識也成了無源之水。數據挖掘是組織和發現數字檔案館中知識資源的有效途徑,為數字檔案館實施知識管理創造了條件,是兩者得以無縫鏈接的承上啟下階段。這里的數據挖掘不能看成是純粹的信息處理技術,它是對信息處理技術集群進行協調和管理的方法和策略?;谥R管理的數字檔案館中的數據挖掘是以網絡和數字化資源為基礎,立足于多種信息技術的協調和配合,以實施挖掘算法和挖掘模型為手段,以組織和發現數字檔案館中已存在的知識資源,為實施知識管理提供管理對象為目的,讓數字檔案館有效利用知識,實現知識創新的過程。
3.基于知識管理的數字檔案館中的主要挖掘對象
3.1數字檔案館中的固化資源
這是存在于數字檔案館中的顯性知識,即記錄于一定物質載體上的知識⑤,包括:已數字化的館藏資源、現行電子文件、檢索工具、編研成果,與數字檔案館工作相關的各種法律法規、規章制度、行業標準等,圍繞數字檔案館建設所產生的研究成果、技術資料及有助于數字檔案館發展的其它相關知識。
3.2數字檔案館中的智力資源
這是存在于數字檔案館中的隱性知識,是存在于檔案館行政管理人員、政策法規研究人員、信息技術人員、對外協調人員等頭腦中所儲備的大量非編碼智力資源,包括:各種管理方法、計算機處理技術、處理問題的能力等。由于人是知識管理的核心,是知識管理中最活躍的最主動的因素⑥,所以對這部分知識的挖掘也是數字檔案館知識挖掘的重點。
3.3用戶利用行為信息
用戶的利用行為信息包括兩方面,利用信息和反饋信息。利用信息是用戶為了解決現實問題,滿足學術、科研、生產等需求,在實施具體利用行為時所產生的信息,包括:訪問內容、訪問頻率、訪問時間等,它們反映出用戶對數字化資源的個性化、多樣化需求及利用規律。反饋信息是在檔案利用這一連續活動中,檔案利用者發現的問題和情況、提出的要求、意見、評價和效益等⑦。對這些數據的挖掘,可用于對用戶未來利用趨勢的分析預測,以及提出在此基礎上的管理決策,為提高數字檔案館的服務水平提供依據。
4.挖掘過程
如圖所示,在數字檔案館的運行過程中,一旦確定某個主題,首先就要對這個主題進行定義,明確數據挖掘的要求和目的,在對問題進行定義的同時,對檔案數據庫中的顯性知識和隱性知識進行收集提取,并對其進行概念描述歸納出需求的相關特征,通過聚類分析,按照相似性和差異性形成不同的需求分類模型,并把數據放入不同的分類中,通過需求分類模型與用戶利用信息的結合,進行差異分析和偏差檢測,排除大量不相關的數據,形成挖掘結果。之后便對挖掘結果進行評價,形成的挖掘結果有可能存在無關的數據,也有可能不滿足需求,如果不符合挖掘要求和目的,整個數據挖掘過程就要退回到數據收集階段,并重復挖掘過程,這可以用“if not…then”規則來進行描述,反之則達到數據挖掘要求,能為數字檔案館知識管理所用,并充實到原有數據庫中,實現檔案館的知識創新。
5.數據挖掘時應注意的問題
5.1數據挖掘方法的選擇
由于數據挖掘方法功能的各不相同,所以要針對挖掘需求和目標,采用適合的模式和算法,特別是在對多個數字檔案館進行跨館、跨庫挖掘的時候,各館可能采用不同的數據庫系統內核,如ORICLE、SQL SERVER、DBII等等,且各館館藏內容也大相徑庭,所以在進行數據挖掘的時候應立足于所處的數字化館藏環境,在方法的選擇上有的放矢,不能一概而論。
5.2數據挖掘結果的準確性
即對數據挖掘質量的控制問題。數字檔案館數據庫中涉及大量的數據信息,在這些海量數據面前,不可避免的會出現冗長,甚至錯誤的數據,所以在進行數據挖掘時,應根據數據挖掘任務的不同,選擇適合的挖掘類型和算法,并對出現的錯誤數據進行修正、處理、加工,為檔案館提供科學合理的各種分析報告和相關預測信息,指導檔案館工作人員采取正確手段,并為檔案館改進服務、作出決策提供智力支持。
5.3用戶隱私的保護
檔案館利用數據挖掘技術優化服務,提高管理水平的同時,也不可避免的增加了侵犯用戶隱私權的可能性,因為用戶在利用數字檔案資源的過程中涉產生大量的個人信息,這些信息包括:用戶的姓名、工作、學歷、興趣等,它們一旦被其它別有用心的人所獲取,用戶就有可能受到,進而造成用戶對檔案館的反感,影響到用戶的二次利用,所以檔案館應該妥善保管這些信息,建立有效的隱私保障機制,不能在未得到用戶授權的情況下將他們的個人隱私泄漏出去。
5.4人力資源的保障
數據挖掘脫胎于計算機領域,要在基于知識管理的數字檔案館中實施數據挖掘必然離不開優秀的計算機專業人員和管理人員,但只強調專業技術,忽視對其業務技能的培養,也會制約數字檔案館的發展,所以在數字檔案館建設過程中,需要加強對專業技術人員的檔案知識補充,同時調整檔案館管理人員的知識結構,使他們盡可能的掌握必要的網絡、數據庫基礎知識。
從實體管理到信息管理,從信息管理到知識管理已是檔案館發發展的不可逆轉進程,基于知識管理的數字檔案館是檔案館發展的必然組織形式。數據挖掘可以快速有效地分析和處理來自數字檔案館內外的海量數據和信息,使隱性知識顯性化,顯性知識結構化,為數字檔案館的科學管理和服務水平的不斷提高提供了有力支持,使檔案館向著知識化的方向發展,隨著信息技術的不斷深入和挖掘算法的不斷改進,數據挖掘必將與數字檔案館的知識管理結合得更加緊密,顯現出更加強大的生命力。
注釋:
① 邵峰等,于忠清.數據挖掘原理與算法[M]. 北京.中國水利水電出版社,2003 .P2
② Jiawei Han, Micheline Kamber .Data Ming Concepts and Techniques[M]. Morgan Kaufmann Publishers. 2001. P5
③ 蘇新寧.數據挖掘理論與技術 [M]. 北京.科學技術文獻出版社.2003.P25
④ 蘇新寧.數據挖掘理論與技術 [M]. 北京.科學技術文獻出版社.2003.P28
⑤ 徐擁軍,王宏. 論企業檔案在企業知識管理中的作用[J].檔案學通訊.2004.3
⑥ 李昕.信息管理與知識管理比較分析[J].貴陽市委黨校學報.2006.5
⑦ 史江,李金峰.檔案利用信息反饋工作的問題與對策探討[J].檔案學通訊.2007.3
參考文獻:
① 邵峰等,于忠清.數據挖掘原理與算法[M]. 北京.中國水利水電出版社,2003
② Jiawei Han, Micheline Kamber .Data Ming Concepts and Techniques[M]. Morgan Kaufmann Publishers. 2001
③ 蘇新寧.數據挖掘理論與技術 [M]. 北京.科學技術文獻出版社.2003
④ 王預.數據挖掘的應用研究[J].中國信息導報.2007.1
*本文為教育部人文社會科學規劃項目《基于知識管理的數字檔案館建設策略研究》(項目批準號:06JA870008)成果之一。[作者簡介]黃小忠,四川大學公共管理學院檔案學專業2006級碩士研究生;史江,博士,四川大學公共管理學院副教授。(原載于《檔案學通訊》2008年第四期)