誰是我們的網上利用者
用戶獲取資料的新方法
隨著計算機網絡技術的應用和普及,人類進入了信息時代,檔案部門在互聯網上建立網站,以網頁方式向公眾提供信息和相關服務,不僅能實現大量信息資源的廣泛共享,快速、廣泛、深入、低成本地完成檔案信息服務于社會的職能,而且可以直接迅速地獲取反饋信息,準確掌握用戶需求,提高服務質量。顯然如何利用檔案網站更好地為遠程用戶服務是我們所面臨的新課題。
歐美國家在網站的建設方面起步較早,并且擁有大量的遠程用戶。本文介紹了英國檔案工作者在這方面的探索。從“誰是我們網上利用者”和“用戶獲取資料新途徑”兩方面入手,著重了解在線檔案資料用戶的特點,并且分析不同類型用戶的特別需求。這篇文章還檢驗已有技術或者是將來的技術方法,使這些方法運用于改善檔案資料的利用情況。使遠程用戶與訪問檔案館的用戶一樣,享受同等級別的服務。目前,與國外相比我們的遠程檔案用戶并不是很多,但是隨著網站不斷發展,我們也將擁有越來越多的遠程用戶。因此我們有必要借鑒一些國外的先進經驗,樹立超前的服務意識,為一個潛在的相當大的群體(遠程用戶)提供優質的檔案信息服務。
----編 者
誰是我們的網上利用者?
與檔案工作人員在他們工作的過程中碰到的用戶相比,在線用戶通常是匿名的。在線用戶可能從來不到我們檔案部門來,他們可以在我們的網頁上找到他們所需要的所有信息。他們完全沒有察覺到他們本身就是用戶,正在尋找他們需要的資料并且下載。對我們來說,認識到他們仍然是我們的服務對象,就像在我們研究室內實實在在利用檔案的用戶一樣,以同樣的方式,對他們加以考慮,這一點是相當重要的。
對于許多檔案部門來講,這標志著工作重點的根本轉移。檔案專業常常把重點放在用戶的需求上,但主要是針對訪問檔案館的用戶。我們容易計算訪問檔案館用戶的人數,能夠在相當簡單的方法下了解他們的需求,常常能說服他們完成用戶調查表的填寫。而對于遠程用戶就比較難了解他們的需求,但在任何情況下,與訪問檔案部門的用戶相比,他們都不應該被認為是不重要的。關于訪問檔案部門數量下降的問題,應該被看成是在改善在線利用檔案資料情況下的一種結果?,F在問題是,對遠程用戶的服務和統計還沒有找到非常有效的方法。
盡管遠程用戶難以識別,但是可以根據相當數量的信息作出推斷。例如,當前英國檔案網絡,在網站服務器的日志中進行數據分析。所以作為一個例子,在表一中,顯示的就是2003年訪問“檔案匯總網”用戶的來源地。
表一:進入“檔案匯總網”用戶的計算機地址識別他們的來源地
這些數據來自于使用訪問網站的計算機域名。當然,這也并不能完全說明情況,因為許多.com和.net用戶是海外用戶,也可能是大學的用戶,并且這些用戶可能在家中直接利用檔案,這些用戶不是“ac.uk”的網址。通過對海外用戶的身份確認能夠知道他們來自哪個國家和地區。進入“檔案匯總網”的主要海外用戶的國家(總共超過100個國家)在表二中顯示。
表二:“檔案匯總網”的海外用戶
加拿大
獲取遠程用戶其他信息的方法,有在線反饋表和網站電子郵箱。“A2A網”上有一個“新用戶”的信息表格,請求訪問該網站的用戶填寫用戶的基本信息和他們利用檔案目錄以及檔案的用途。通過這些表格所收集到的信息顯示,大約80%的回應者正在研究他們家族的歷史,絕大多數新用戶都是初次接觸 “發現幫助功能”。
2002年11月,作為信息收集的一個部分,鼓勵進入“檔案匯總網”的用戶,完成在線表格的填寫,就有機會贏得一本書作為獎勵。有關“你是屬于哪一類”問題的回答在圖表1中顯示。然而,應該注意到,與為用戶面對面地提供服務的準確記錄相比,在這個圖表中比例相對較高的檔案工作者和圖書館工作人員更傾向于使用專業的郵件列表形式的反饋表。
“你是屬于哪一類”
圖表一:2002年11月“檔案匯總網”調查回復者分析
把在線搜索軟件的需求作為調查的一部分,通過不同類型的用戶所要求的搜索設備,六個檔案部門參加了一項用戶調查。他們是國家檔案館、惠康研究院、多塞特檔案部門、伯明翰城市檔案館、格拉斯哥大學檔案中心等。這次調查發現大多數用戶(60%)是屬于個人利用。另一個用戶群體(22%)是屬于工作利用,這包括大學的和專業的研究人員。這項調查進一步分析了這些用戶研究的專題:64%的人對于尋找家族、個人或組織的信息感興趣,而23%的人尋找特別的論題。這兩大群體之間的關聯性比較高,84%的個人用戶尋找家族、個人或者組織檔案,85%的專業用戶和教育用戶尋找論題。
這是一項有意義的研究,因為它強調了提供詳細的“發現幫助功能”和關于“匯總主題詞指南”這兩者的重要性。為了使用戶看懂在線表格里的目錄,“發現幫助功能”需要附帶他們描述全部檔案內容的另外信息。目前絕大多數檔案網已經不同程度地做了這件事。因此在“AIM25網”和“檔案匯總網”上,主題詞術語是相當豐富的。盡管“A2A網”的主題索引級是經常變化的,“A2A網”中心團隊還是鼓勵人們把索引術語放入多級“發現幫助功能”的最高一層。
表三:2003年10月“A2A網”和“檔案匯總網”主題詞搜索數據
主題詞搜索(點擊帶有描述的標題索引)
對于尋找個性化信息的個人用戶來說,研究表明了利用較低級別類型的詳細信息的重要性,這個用戶群體是特別的重要。通過利用詳細的條目級別的信息和清晰的路徑來得到他們感興趣的材料的復制件。這類服務等級使專業研究人員受益。
當前沒有一個檔案網能夠完全滿足所有用戶的需要?!癆2A網”最擅長提供詳細的條目級的信息。統計數字顯示經常在“A2A網”上利用目錄的是那些季審法院,那里有大量的個人名字。“A2A網”上論題搜索更為困難。表三反映的是,“檔案匯總網”與“A2A網”相比,通過論題搜索選項的利用頻率。
為了更好地滿足我們更多的在線用戶,很明顯,我們需要提供更多的信息(更加完整的目錄)和更高質量的信息(附有主題詞索引的目錄),使用戶通過標題更加容易利用檔案。當然,我們的在線服務應服務于所有的用戶,他們應同訪問檔案部門的用戶一樣得到同樣等級的服務。
但是也許對于那些從未想真正進入檔案部門的用戶來說,在所有用戶類別中,利用檔案圖片是另一個正在變得越來越重要的領域。一些網站通過數字化項目提供了極好的例子。在那里,檔案工作者、一些信息專家和教育學者在一起工作,形成的研究成果將始終吸引學習者。這其中有許多資料基本上被挑選出來,用于特別專題的在線展覽。
檔案工作者經過訓練,描述他們的館藏,但是學習者以及非檔案館用戶群體正在形成一種需求,就是要求運用一系列不同技巧對檔案資料進行描述。同編寫“發現幫助功能”內容相比,為萬維網編寫容易閱讀的文本和編寫敘述性的個人條目如同為展覽編寫文本一樣容易。在“解釋、說明”方面,博物館專家和教育學專家比檔案工作人員更有經驗。
前面提到的個人用戶,特別是那些調查家族歷史的人,對于圖片的需求是另一個重要的領域。根據英國國家檔案館提供的“1901年人口普查報告”的圖片經驗,證明了個人用戶希望利用有關個人的詳細資料,并愿意為個人研究圖片支付所需費用。英國國家檔案館的文件在線服務正在建設另一個支付在線查看資料的項目(每張圖片3.5磅),分成家庭歷史和其他資料。
另一個首創的成功例子,蘇格蘭檔案網絡工程把1500年到1901年之間50多萬份在蘇格蘭地區登記的遺囑數字化,利用這些文件的圖片都要支付費用(目前每份遺囑支付5英鎊)。有趣的是,這項服務實際上已經為他們創造了新的收入來源。但是這項服務對于愛丁堡檔案機構和研究人員的工作來說被認為是一種威脅,因為,原先用戶為了看懂原件經常要求他們進行代抄服務。
檔案工作者對于利用資料支付費用有些猶豫,在線的家族歷史市場是一個能夠服務好的市場,我們能夠提供他們愿意支付費用的資料??赡苓€需要很多年,家譜學者才能夠在線瀏覽所有英國行政區域的登記,但是現在就有必要設定類似這樣的目標,并且為實施作計劃。基礎設施所需的類似項目未必要在每個獨立的檔案部門中設立。
用戶獲取資料的新方法
我們如何找到不了解“A2A網”或者其他網址的用戶?用戶如何知道他們所需要的資料就隱藏在我們“發現幫助功能”或者圖片之中?確保這些用戶注意我們信息的最佳方法是什么?
首要工程是把在線檔案的描述重點放在建立萬維網的數據接口上,意味著用戶為了能了解更多的內容,不得不先了解網站。由于信息隱藏在搜索引擎內,只有在他們自己的網站利用其搜索表單,才能找到所需的信息。所以檔案網絡被稱為是“有深度”或“隱匿”的網。
不久以前,“AIM25網”可以通過搜索引擎使用“匯總級描述”。這種服務的用處是相當大的,許多用戶直接通過搜索引擎進入“匯總級描述”。在2002年12月,“檔案匯總網”按照這個方向,允許Google的“查詢機器人”進入網站的“新聞”欄目,在那里大約有5%的“檔案匯總網”的描述存在于靜態的網頁上。圖表二顯示了在這一天被做記號之后利用數量的上升,2003年完成的搜索類型的剖面圖與2002年剖面圖有著相當戲劇性的不同。
“檔案匯總網”搜索類型的比較
圖表二:“檔案匯總網”在2002年以及2003年的搜索類型剖面圖

從用戶到達“檔案匯總網”的方法的調查中顯示,84%的用戶直接從搜索引擎到達那些靜態的頁面。然后,他們中的許多用戶使用帶有相關描述的“索引鏈接”瀏覽站點。這就是2003年“索引鏈接”搜索出現戲劇性上升的原因。從這個結果看起來,用戶喜歡“點擊”,而不喜歡“打字”。向搜索引擎開放這些內容將滿足最廣泛的可能讀者。當然對于利用的增長也有負面影響。在廣泛利用了“檔案匯總網”的說明之后,進入“檔案匯總網”幫助桌面的問訊增加了10倍。其中許多是關于查找和利用檔案的問題。但是有的問題根本與檔案無關。
由“A2A網”提供的這些特點在表四中呈現。從“A2A網”觀察,一部分搜索引擎的使用價值相對較低。這是因為“A2A網”要求用戶進入首頁后,為了到達“發現幫助功能”而實施搜索,而沒有直接的方法從搜索引擎進入說明。
表四:轉換用戶到“A2A網”的站點
利用“開放初始協議”(OAI)同使用搜索引擎一樣,“AIM25網”已經使得自己可利用匯集的信息。關于電子打印期刊文章作為一種共享信息方式,OAI在大學群體里開發了。但是因為它需要資料的簡明信息,被編入都柏林核心(DC)元數據之中,OAI也能用于共享其他類型資料的共享信息。對于AIM25團隊來說,在制定“AIM25網”數據記錄的ISAD(G)數據字段到DC所需要的元素的時候,這一點已經做到了。在這個過程中,不可避免地丟失一些ISAD(G)的數據。ISAD(G)字段只有標題、設立者、范圍和內容,主題和利用限制字段被映射到DC版本中。他們與整個ISAD(G)記錄的URL(超級鏈接)相關。一條AIM25記錄的DC版本的例子在表五中。
表五 都柏林核心元數據中的一條AIM25記錄
貝弗里奇,威廉亨利,1879-1963,塔格爾貝弗里奇男爵一世,經濟學家:煤礦危機文件
http://www.aim25.ac.uk/cats/1/5750.htm
OAI服務提供者(即對于任何OAI內容提供者可以提供搜索設備),通過HTTP(全球萬維網協議)利用OAI元數據。OAI服務提供者的表單由OAI維護。在密歇根大學的OAIster搜索引擎就是一個例子,在那里,除了超過200個其他內容提供者,“AIM25網”的元數據可以被找回。
OAI特別適合匯總級的記錄,類似于那些由“AIM25網”維護的記錄,這些記錄沒有包含層次結構?!癆IM25網”的記錄存放在一個數據庫結構中,這個數據庫結構的數據字段是直接映射到DC中。這就意味著設立一個單獨的工具,把這些EAD案卷變成OAI記錄是極其困難的。
允許利用完整的“發現幫助功能”,不改變案卷結構的一種方法是使用圖書搜索和已知的Z39.5(這個名字來自于定義議定書的美國標準的參考數據)。Z39.5在2002年里使用,設立了原型的網關,從“A2A網”和“檔案匯總網”的服務中交叉搜索記錄。Z39.5的缺點是同時直接搜索大量數據庫是無效的,使用協議的交叉搜索是不能達到的。
在“檔案匯總網”的分發版本的軟件中用到的方法是混合方法,其中的Z39.95用于每天從遠程EAD數據庫中收集信息。對數據的索引組合到“檔案匯總網”的中心“元索引”中,當用戶進行搜索時,利用的就是該索引?!癝pokes”分發軟件能安裝到檔案館,允許檔案職工增加、編輯、刪除他們擁有的EAD文件,同時,還能讓他們通過“檔案匯總網”站點進行搜索。它還能讓檔案館提供本地Web站點和對他們的EAD文件的Z39.50接口。Z39.50接口意味著EAD能被其他系統搜索,這樣就允許像目錄索引和檔案元數據的交叉搜索。
在線資源世界中的下一個主要開發就是“網站服務”的出現。這個用語是指一種結構,該結構支持單獨的應用服務程序能直接被其它應用程序所調用。這就意味著資源能通過自動和其它資源的組合被構建。此刻,Google和Amazon是兩大巨頭,他們已經開始提供這種服務。在寫作本文的時候,這些應用也能自由地結合在其它網站內。
和其它資源進行組合的這些服務程序使用的方式是通過XML格式的消息,XML是一種靈活的標簽語言。這些消息通常通過HTTP從一個系統傳遞到另一個系統。每個服務程序包含一個機讀文件,它描述了消息和回答信息的格式,這些消息能被服務程序接受到,回答信息是服務程序返回的。對網站服務的一個關鍵事項,它們是已存在應用上面的一個層次,它能運行在任何計算機平臺上,只要它能“講”XML語言。同樣地,使用這種應用服務程序能運行在完全不同的軟件平臺上,只要它們能發出和處理XML請求,就沒有問題。
英國政府的e-GIF框架文件強制使用XML作為2005年以后的系統間信息交換的方式。將來所能看到的是,在所有政府級別中,網站服務的技術變得越來越重要。使用網站服務背后的推動力是驚人的,Web標準組織W3C和OASIS以及像微軟、IBM等工業巨頭也卷了進來推動著它向前發展。
在檔案世界里,在現有系統上增加網站服務接口,然后建立應用,該應用提供對任何數量的系統的交叉搜索能力,從理論上來講是可能的。有待觀察的是,在實踐中這種方法究竟能達到多大規模,但是,對分布式“檔案匯總網”,下列做法將會有好處,保留現有的“發現幫助功能”中豐富的元數據,而不是為了適應DC有更多限制性元數據字段而減少它。
通過允許其它計算機系統直接組合我們的“發現幫助功能”,我們正在實現這種在任何數量的其它應用和門戶上展現檔案數據的可能性。這將是一個世界范圍的檔案網,一個有精確主題的網關,一個全體的或者制度上的門戶,或者一個本地的搜索服務。其它的對改進工作流的可能性允許檔案人員利用和更新中心數據庫。
結論
我們在線服務的用戶與在檔案部門利用檔案的用戶同樣重要。如果我們構畫出我們服務的全部利用的一張清晰的圖片,我們需要保證有恰當計算那些用戶的方法。為了吸引那些不喜歡去檔案部門的人,我們需要設計如同展覽會一樣漂亮的網站。為了給予想要利用原始資料的用戶最好的服務(或者愿意支付費用),我們要盡可能更高質量、更為詳細地提供“發現幫助功能”中的信息,使“發現幫助功能”盡可能地被廣泛利用。通過搜索引擎提升“發現幫助功能”的可視度是一種途徑。但是,我們也需要考慮允許其他系統直接利用我們的搜索界面。這樣做將允許在一個廣泛的界面內產生檔案數據的結論。針對不同范圍的用戶,甚至保證根本不注意檔案的人群能夠找到與他們有關的信息的位置。
檔案部門不是旅游者的目的地,而是一個信息中心。訪問檔案館的用戶是一類人群,盡管這類用戶還在不斷增長,但是他們只形成了我們全部用戶輪廓的一小部分。為一個相當大的群體(遠程用戶)提供服務需要有超前的意識而不是事后才去想。
(伊文譯自《英國檔案工作者》)
用戶獲取資料的新方法
隨著計算機網絡技術的應用和普及,人類進入了信息時代,檔案部門在互聯網上建立網站,以網頁方式向公眾提供信息和相關服務,不僅能實現大量信息資源的廣泛共享,快速、廣泛、深入、低成本地完成檔案信息服務于社會的職能,而且可以直接迅速地獲取反饋信息,準確掌握用戶需求,提高服務質量。顯然如何利用檔案網站更好地為遠程用戶服務是我們所面臨的新課題。
歐美國家在網站的建設方面起步較早,并且擁有大量的遠程用戶。本文介紹了英國檔案工作者在這方面的探索。從“誰是我們網上利用者”和“用戶獲取資料新途徑”兩方面入手,著重了解在線檔案資料用戶的特點,并且分析不同類型用戶的特別需求。這篇文章還檢驗已有技術或者是將來的技術方法,使這些方法運用于改善檔案資料的利用情況。使遠程用戶與訪問檔案館的用戶一樣,享受同等級別的服務。目前,與國外相比我們的遠程檔案用戶并不是很多,但是隨著網站不斷發展,我們也將擁有越來越多的遠程用戶。因此我們有必要借鑒一些國外的先進經驗,樹立超前的服務意識,為一個潛在的相當大的群體(遠程用戶)提供優質的檔案信息服務。
----編 者
誰是我們的網上利用者?
與檔案工作人員在他們工作的過程中碰到的用戶相比,在線用戶通常是匿名的。在線用戶可能從來不到我們檔案部門來,他們可以在我們的網頁上找到他們所需要的所有信息。他們完全沒有察覺到他們本身就是用戶,正在尋找他們需要的資料并且下載。對我們來說,認識到他們仍然是我們的服務對象,就像在我們研究室內實實在在利用檔案的用戶一樣,以同樣的方式,對他們加以考慮,這一點是相當重要的。
對于許多檔案部門來講,這標志著工作重點的根本轉移。檔案專業常常把重點放在用戶的需求上,但主要是針對訪問檔案館的用戶。我們容易計算訪問檔案館用戶的人數,能夠在相當簡單的方法下了解他們的需求,常常能說服他們完成用戶調查表的填寫。而對于遠程用戶就比較難了解他們的需求,但在任何情況下,與訪問檔案部門的用戶相比,他們都不應該被認為是不重要的。關于訪問檔案部門數量下降的問題,應該被看成是在改善在線利用檔案資料情況下的一種結果?,F在問題是,對遠程用戶的服務和統計還沒有找到非常有效的方法。
盡管遠程用戶難以識別,但是可以根據相當數量的信息作出推斷。例如,當前英國檔案網絡,在網站服務器的日志中進行數據分析。所以作為一個例子,在表一中,顯示的就是2003年訪問“檔案匯總網”用戶的來源地。
表一:進入“檔案匯總網”用戶的計算機地址識別他們的來源地
這些數據來自于使用訪問網站的計算機域名。當然,這也并不能完全說明情況,因為許多.com和.net用戶是海外用戶,也可能是大學的用戶,并且這些用戶可能在家中直接利用檔案,這些用戶不是“ac.uk”的網址。通過對海外用戶的身份確認能夠知道他們來自哪個國家和地區。進入“檔案匯總網”的主要海外用戶的國家(總共超過100個國家)在表二中顯示。
表二:“檔案匯總網”的海外用戶
加拿大
獲取遠程用戶其他信息的方法,有在線反饋表和網站電子郵箱。“A2A網”上有一個“新用戶”的信息表格,請求訪問該網站的用戶填寫用戶的基本信息和他們利用檔案目錄以及檔案的用途。通過這些表格所收集到的信息顯示,大約80%的回應者正在研究他們家族的歷史,絕大多數新用戶都是初次接觸 “發現幫助功能”。
2002年11月,作為信息收集的一個部分,鼓勵進入“檔案匯總網”的用戶,完成在線表格的填寫,就有機會贏得一本書作為獎勵。有關“你是屬于哪一類”問題的回答在圖表1中顯示。然而,應該注意到,與為用戶面對面地提供服務的準確記錄相比,在這個圖表中比例相對較高的檔案工作者和圖書館工作人員更傾向于使用專業的郵件列表形式的反饋表。
“你是屬于哪一類”
圖表一:2002年11月“檔案匯總網”調查回復者分析
把在線搜索軟件的需求作為調查的一部分,通過不同類型的用戶所要求的搜索設備,六個檔案部門參加了一項用戶調查。他們是國家檔案館、惠康研究院、多塞特檔案部門、伯明翰城市檔案館、格拉斯哥大學檔案中心等。這次調查發現大多數用戶(60%)是屬于個人利用。另一個用戶群體(22%)是屬于工作利用,這包括大學的和專業的研究人員。這項調查進一步分析了這些用戶研究的專題:64%的人對于尋找家族、個人或組織的信息感興趣,而23%的人尋找特別的論題。這兩大群體之間的關聯性比較高,84%的個人用戶尋找家族、個人或者組織檔案,85%的專業用戶和教育用戶尋找論題。
這是一項有意義的研究,因為它強調了提供詳細的“發現幫助功能”和關于“匯總主題詞指南”這兩者的重要性。為了使用戶看懂在線表格里的目錄,“發現幫助功能”需要附帶他們描述全部檔案內容的另外信息。目前絕大多數檔案網已經不同程度地做了這件事。因此在“AIM25網”和“檔案匯總網”上,主題詞術語是相當豐富的。盡管“A2A網”的主題索引級是經常變化的,“A2A網”中心團隊還是鼓勵人們把索引術語放入多級“發現幫助功能”的最高一層。
表三:2003年10月“A2A網”和“檔案匯總網”主題詞搜索數據
主題詞搜索(點擊帶有描述的標題索引)
對于尋找個性化信息的個人用戶來說,研究表明了利用較低級別類型的詳細信息的重要性,這個用戶群體是特別的重要。通過利用詳細的條目級別的信息和清晰的路徑來得到他們感興趣的材料的復制件。這類服務等級使專業研究人員受益。
當前沒有一個檔案網能夠完全滿足所有用戶的需要?!癆2A網”最擅長提供詳細的條目級的信息。統計數字顯示經常在“A2A網”上利用目錄的是那些季審法院,那里有大量的個人名字。“A2A網”上論題搜索更為困難。表三反映的是,“檔案匯總網”與“A2A網”相比,通過論題搜索選項的利用頻率。
為了更好地滿足我們更多的在線用戶,很明顯,我們需要提供更多的信息(更加完整的目錄)和更高質量的信息(附有主題詞索引的目錄),使用戶通過標題更加容易利用檔案。當然,我們的在線服務應服務于所有的用戶,他們應同訪問檔案部門的用戶一樣得到同樣等級的服務。
但是也許對于那些從未想真正進入檔案部門的用戶來說,在所有用戶類別中,利用檔案圖片是另一個正在變得越來越重要的領域。一些網站通過數字化項目提供了極好的例子。在那里,檔案工作者、一些信息專家和教育學者在一起工作,形成的研究成果將始終吸引學習者。這其中有許多資料基本上被挑選出來,用于特別專題的在線展覽。
檔案工作者經過訓練,描述他們的館藏,但是學習者以及非檔案館用戶群體正在形成一種需求,就是要求運用一系列不同技巧對檔案資料進行描述。同編寫“發現幫助功能”內容相比,為萬維網編寫容易閱讀的文本和編寫敘述性的個人條目如同為展覽編寫文本一樣容易。在“解釋、說明”方面,博物館專家和教育學專家比檔案工作人員更有經驗。
前面提到的個人用戶,特別是那些調查家族歷史的人,對于圖片的需求是另一個重要的領域。根據英國國家檔案館提供的“1901年人口普查報告”的圖片經驗,證明了個人用戶希望利用有關個人的詳細資料,并愿意為個人研究圖片支付所需費用。英國國家檔案館的文件在線服務正在建設另一個支付在線查看資料的項目(每張圖片3.5磅),分成家庭歷史和其他資料。
另一個首創的成功例子,蘇格蘭檔案網絡工程把1500年到1901年之間50多萬份在蘇格蘭地區登記的遺囑數字化,利用這些文件的圖片都要支付費用(目前每份遺囑支付5英鎊)。有趣的是,這項服務實際上已經為他們創造了新的收入來源。但是這項服務對于愛丁堡檔案機構和研究人員的工作來說被認為是一種威脅,因為,原先用戶為了看懂原件經常要求他們進行代抄服務。
檔案工作者對于利用資料支付費用有些猶豫,在線的家族歷史市場是一個能夠服務好的市場,我們能夠提供他們愿意支付費用的資料??赡苓€需要很多年,家譜學者才能夠在線瀏覽所有英國行政區域的登記,但是現在就有必要設定類似這樣的目標,并且為實施作計劃。基礎設施所需的類似項目未必要在每個獨立的檔案部門中設立。
用戶獲取資料的新方法
我們如何找到不了解“A2A網”或者其他網址的用戶?用戶如何知道他們所需要的資料就隱藏在我們“發現幫助功能”或者圖片之中?確保這些用戶注意我們信息的最佳方法是什么?
首要工程是把在線檔案的描述重點放在建立萬維網的數據接口上,意味著用戶為了能了解更多的內容,不得不先了解網站。由于信息隱藏在搜索引擎內,只有在他們自己的網站利用其搜索表單,才能找到所需的信息。所以檔案網絡被稱為是“有深度”或“隱匿”的網。
不久以前,“AIM25網”可以通過搜索引擎使用“匯總級描述”。這種服務的用處是相當大的,許多用戶直接通過搜索引擎進入“匯總級描述”。在2002年12月,“檔案匯總網”按照這個方向,允許Google的“查詢機器人”進入網站的“新聞”欄目,在那里大約有5%的“檔案匯總網”的描述存在于靜態的網頁上。圖表二顯示了在這一天被做記號之后利用數量的上升,2003年完成的搜索類型的剖面圖與2002年剖面圖有著相當戲劇性的不同。
“檔案匯總網”搜索類型的比較
圖表二:“檔案匯總網”在2002年以及2003年的搜索類型剖面圖

從用戶到達“檔案匯總網”的方法的調查中顯示,84%的用戶直接從搜索引擎到達那些靜態的頁面。然后,他們中的許多用戶使用帶有相關描述的“索引鏈接”瀏覽站點。這就是2003年“索引鏈接”搜索出現戲劇性上升的原因。從這個結果看起來,用戶喜歡“點擊”,而不喜歡“打字”。向搜索引擎開放這些內容將滿足最廣泛的可能讀者。當然對于利用的增長也有負面影響。在廣泛利用了“檔案匯總網”的說明之后,進入“檔案匯總網”幫助桌面的問訊增加了10倍。其中許多是關于查找和利用檔案的問題。但是有的問題根本與檔案無關。
由“A2A網”提供的這些特點在表四中呈現。從“A2A網”觀察,一部分搜索引擎的使用價值相對較低。這是因為“A2A網”要求用戶進入首頁后,為了到達“發現幫助功能”而實施搜索,而沒有直接的方法從搜索引擎進入說明。
表四:轉換用戶到“A2A網”的站點
利用“開放初始協議”(OAI)同使用搜索引擎一樣,“AIM25網”已經使得自己可利用匯集的信息。關于電子打印期刊文章作為一種共享信息方式,OAI在大學群體里開發了。但是因為它需要資料的簡明信息,被編入都柏林核心(DC)元數據之中,OAI也能用于共享其他類型資料的共享信息。對于AIM25團隊來說,在制定“AIM25網”數據記錄的ISAD(G)數據字段到DC所需要的元素的時候,這一點已經做到了。在這個過程中,不可避免地丟失一些ISAD(G)的數據。ISAD(G)字段只有標題、設立者、范圍和內容,主題和利用限制字段被映射到DC版本中。他們與整個ISAD(G)記錄的URL(超級鏈接)相關。一條AIM25記錄的DC版本的例子在表五中。
表五 都柏林核心元數據中的一條AIM25記錄
貝弗里奇,威廉亨利,1879-1963,塔格爾貝弗里奇男爵一世,經濟學家:煤礦危機文件
http://www.aim25.ac.uk/cats/1/5750.htm
OAI服務提供者(即對于任何OAI內容提供者可以提供搜索設備),通過HTTP(全球萬維網協議)利用OAI元數據。OAI服務提供者的表單由OAI維護。在密歇根大學的OAIster搜索引擎就是一個例子,在那里,除了超過200個其他內容提供者,“AIM25網”的元數據可以被找回。
OAI特別適合匯總級的記錄,類似于那些由“AIM25網”維護的記錄,這些記錄沒有包含層次結構?!癆IM25網”的記錄存放在一個數據庫結構中,這個數據庫結構的數據字段是直接映射到DC中。這就意味著設立一個單獨的工具,把這些EAD案卷變成OAI記錄是極其困難的。
允許利用完整的“發現幫助功能”,不改變案卷結構的一種方法是使用圖書搜索和已知的Z39.5(這個名字來自于定義議定書的美國標準的參考數據)。Z39.5在2002年里使用,設立了原型的網關,從“A2A網”和“檔案匯總網”的服務中交叉搜索記錄。Z39.5的缺點是同時直接搜索大量數據庫是無效的,使用協議的交叉搜索是不能達到的。
在“檔案匯總網”的分發版本的軟件中用到的方法是混合方法,其中的Z39.95用于每天從遠程EAD數據庫中收集信息。對數據的索引組合到“檔案匯總網”的中心“元索引”中,當用戶進行搜索時,利用的就是該索引?!癝pokes”分發軟件能安裝到檔案館,允許檔案職工增加、編輯、刪除他們擁有的EAD文件,同時,還能讓他們通過“檔案匯總網”站點進行搜索。它還能讓檔案館提供本地Web站點和對他們的EAD文件的Z39.50接口。Z39.50接口意味著EAD能被其他系統搜索,這樣就允許像目錄索引和檔案元數據的交叉搜索。
在線資源世界中的下一個主要開發就是“網站服務”的出現。這個用語是指一種結構,該結構支持單獨的應用服務程序能直接被其它應用程序所調用。這就意味著資源能通過自動和其它資源的組合被構建。此刻,Google和Amazon是兩大巨頭,他們已經開始提供這種服務。在寫作本文的時候,這些應用也能自由地結合在其它網站內。
和其它資源進行組合的這些服務程序使用的方式是通過XML格式的消息,XML是一種靈活的標簽語言。這些消息通常通過HTTP從一個系統傳遞到另一個系統。每個服務程序包含一個機讀文件,它描述了消息和回答信息的格式,這些消息能被服務程序接受到,回答信息是服務程序返回的。對網站服務的一個關鍵事項,它們是已存在應用上面的一個層次,它能運行在任何計算機平臺上,只要它能“講”XML語言。同樣地,使用這種應用服務程序能運行在完全不同的軟件平臺上,只要它們能發出和處理XML請求,就沒有問題。
英國政府的e-GIF框架文件強制使用XML作為2005年以后的系統間信息交換的方式。將來所能看到的是,在所有政府級別中,網站服務的技術變得越來越重要。使用網站服務背后的推動力是驚人的,Web標準組織W3C和OASIS以及像微軟、IBM等工業巨頭也卷了進來推動著它向前發展。
在檔案世界里,在現有系統上增加網站服務接口,然后建立應用,該應用提供對任何數量的系統的交叉搜索能力,從理論上來講是可能的。有待觀察的是,在實踐中這種方法究竟能達到多大規模,但是,對分布式“檔案匯總網”,下列做法將會有好處,保留現有的“發現幫助功能”中豐富的元數據,而不是為了適應DC有更多限制性元數據字段而減少它。
通過允許其它計算機系統直接組合我們的“發現幫助功能”,我們正在實現這種在任何數量的其它應用和門戶上展現檔案數據的可能性。這將是一個世界范圍的檔案網,一個有精確主題的網關,一個全體的或者制度上的門戶,或者一個本地的搜索服務。其它的對改進工作流的可能性允許檔案人員利用和更新中心數據庫。
結論
我們在線服務的用戶與在檔案部門利用檔案的用戶同樣重要。如果我們構畫出我們服務的全部利用的一張清晰的圖片,我們需要保證有恰當計算那些用戶的方法。為了吸引那些不喜歡去檔案部門的人,我們需要設計如同展覽會一樣漂亮的網站。為了給予想要利用原始資料的用戶最好的服務(或者愿意支付費用),我們要盡可能更高質量、更為詳細地提供“發現幫助功能”中的信息,使“發現幫助功能”盡可能地被廣泛利用。通過搜索引擎提升“發現幫助功能”的可視度是一種途徑。但是,我們也需要考慮允許其他系統直接利用我們的搜索界面。這樣做將允許在一個廣泛的界面內產生檔案數據的結論。針對不同范圍的用戶,甚至保證根本不注意檔案的人群能夠找到與他們有關的信息的位置。
檔案部門不是旅游者的目的地,而是一個信息中心。訪問檔案館的用戶是一類人群,盡管這類用戶還在不斷增長,但是他們只形成了我們全部用戶輪廓的一小部分。為一個相當大的群體(遠程用戶)提供服務需要有超前的意識而不是事后才去想。
(伊文譯自《英國檔案工作者》)