美 国 一 级 A 片/午夜免费视频/久久riav/国产人妖 视频专区 - 1024亚洲精品国产

檔案之窗

掃一掃關注

當前位置: 首頁 » 資訊 » 經驗交流 » 正文

當今世界網頁檔案的作用與未來

放大字體  縮小字體 發布日期:2018-11-28 22:39:08    來源:中國檔案報    瀏覽次數:500    評論:0
導讀

作者:卡列夫 H·李塔魯 來源:中國檔案報

 

 

 

作者:卡列夫 H·李塔魯

來源:中國檔案報

 

    設想一下,在一個沒有圖書館和檔案館的世界,沒有機構系統地收集和保存過去,每一本書、每一封信、每一份文件在讀后隨即被扔掉了,那么人們將如何了解自己的過去呢?不幸的是,這恰好是網絡世界正在發生的事,現代互聯網已經誕生了20多年,我們的生活逐漸被數字世界包圍,但這一世界的“圖書館”和“檔案館”才剛剛開始形成。 

    每天,有2.5億張照片被上傳到臉書(美國社交網站)上,有3000億封電子郵件被發送,有3.4億條消息發布到推特(美國社交網絡及微博服務網站)上,每日上傳的博客超過1.56億篇。在數量超過6.44億個網站中,每天還有約15萬個新網站加入其中。更不可思議的是,在數字世界中內容的增長是爆炸性的。在過去60年中,所有《紐約時報》上刊登的單詞約30億個,而現在通過推特發布的單詞一天就達到了80億個。 

    據估計,在過去500年中出版的全部書籍中約有50萬億個單詞。以目前的增長率來看,在推特上發布的單詞量在3年之內就將達到這一數字。全球人口的三分之一都是網民,手機的保有量和全球人口數一樣多。但是大多數時候,就在我們得到信息的同時,就迅速將其丟棄,幾乎不為后世做任何考慮。這就是網頁歸檔的緣起——為了確保幾年、幾十年、幾百年、幾千年后,我們至少還有一部分關于21世紀初期人類社會的書寫記錄。 

    當今世界的網頁檔案 

    亞歷山大圖書館始建于公元前3世紀,是世界上最古老的圖書館之一,數百年后毀于戰火,它的毀滅造成了我們對古代世界理解的巨大缺失。試想一下,如果這個圖書館一直延續至今,且在1000年的時間里持續收集材料將會怎樣?現實情況是,在互聯網領域我們正在遭受著這種損失的循環。不僅是通過像摧毀亞歷山大圖書館那樣的突發事件,更多的是因為我們的不作為——不去收集網頁。

    從1996年初開始,因特網檔案界開始以捕獲快照的方式對網頁進行記錄,這些記錄形成了人們關于網絡世界早期樣貌的一些記憶。如今,像國際互聯網保存聯盟(IIPC)這樣的組織,正在幫助來自世界各地跨學科的網頁檔案管理員分享經驗和最佳做法,拓展合作,為積極推動網頁存檔這一重要任務而作出不懈努力。

    幾乎所有的網頁檔案館都會用爬蟲程序來衡量網站的變化率,以捕捉那些變化頻繁、快速更新的網站。這樣,可以讓經常變化的網站優先使用存儲器資源,而不是將存儲器資源用于存儲一些不更新網站的大量毫無變化的快照。在另外的研究中,抓取頻率本身的動態變化也是個問題。因為檔案館必須在抓取新頁面和重新抓取既有頁面的新變化之間平衡分配它們有限的資源。

    那么,是什么構成了“變化”?答案在不同的研究項目之中會有戲劇性的不同。如果一個網頁看上去毫無變化但是它的超文本鏈接標示語言(HTML)標簽更改了,它是否應被視為發生了“變化”呢?如果標題或者背景顏色變化了又如何?頂部導航欄的變化和頁面正文的變化要同等看待嗎?這些答案的數量與研究項目的數量一樣多,而且沒有哪一種方案能同時解決這些問題。

    什么內容需要保存 

    數字世界正在經歷爆炸性的增長,在幾個小時中產生的內容甚至多于印刷時代大半個世紀的產出。這種增長給我們描繪出一幅不可思議的全球化圖景,在10年前甚至難以想象的溝通、合作和社會研究如今變為可能。然而,文件資料越豐富,存檔便愈加困難。當互聯網因為素材豐富而成為一個讓人興奮的溝通平臺時,也意味著有太多的素材需要保存。

    防止“脹庫”的一個老辦法就是判斷哪些是最“重要的”而哪些能夠被舍棄。然而,我們如何才能決定哪些是干擾“噪聲”?哪些是需要被保存的呢?要是與一個正在撰寫歷史人物傳記的史學工作者聊聊,你會發現,他會將歷史人物的日常信件和日記作為當事人情緒、情感和信念的重要信息來源。近來涌現出的通過推特來預測股票市場或衡量公眾情緒的研究發現,只有把推特上每天全部的3.4億條消息都考慮進去,主要研究模型才會出現。“我正在外面晾衣服,多么美好的一天啊!”這樣一條消息乍看起來似乎沒有任何保存價值,然而它反映出發布者平靜、怡然、放松的情緒,這恰巧是社會科學家感興趣的重要因素,是考察人口學層面狀態變化的一個指標。另外,在考慮什么內容需要保存時,可以舍棄高度重復的事項,如同一事項的多個版本。

    電子檔案加紙質檔案雙套制的興起,引發了對于一個事項要收集兩種載體的需求。網站通過多媒體互動功能發布的電子書包括視頻、照片等,帶給人們與紙質版本完全不同的體驗。有時候,紙質文本作為官方記錄的主要領域,電子版本因其易于使用成為了主要的記錄方式。比如,美國公民為了獲取政府新聞發布和政府聲明,往往會打開白宮的官網瀏覽,而不是去附近的聯邦寄存圖書館瀏覽最新的總統公開文件。2008年筆者與他人合作開展的一項研究發現,美國白宮網站上的官方新聞發布在不斷被編輯,隨著時間的推移添加或刪除主要內容,這是出于不斷變化的政治現實。在這個世界上,信息太容易發生變化,甚至往往被認為難以改變的政府的各種文件材料,在輕點鼠標之間就會發生變化。作為網頁檔案工作者,我們如何有效地捕捉這個世界呢?

    在印刷時代,一本書在它出版之后被存檔,如果后來修訂發行新版本了,出版商會通知圖書館。如果20家圖書館同時收藏了一本書的同一版本,那么可以確定這20本書都是相同的。在數字時代,我們必須不斷地為新的網頁存檔,同時也扮演了一個全新的角色——檢查現有檔案的變化。每個網頁的每次存檔都必須被不斷且有規律地復檢,以確認它是不是發生了變化,這件事可不輕松。

    美國國家科學基金會社會、行為和經濟學董事會副主任邁倫·古特曼認為,在印刷時代由于生產成本高,出版物的出版要經過層層審查,所以往往也都是“值得”保存的;相比之下,數字時代極低的成本意味著,任何人都可以不經任何形式的審查發布信息,這就提出了什么是“值得”保存的問題。在學術領域也是如此,如果有一件檔案特別熱門,有大規模的研究者隊伍都對其加以利用,而另外一份材料只有10個人在使用,那么在銷毀問題上誰的意見更重要呢?在過去這是由圖書館或者檔案館自行決定的,但是隨著用戶和數據挖掘者對檔案信息愈發頻繁的利用,則引發了在作出決定時如何兼顧這些群體利益的問題。

    并行網絡的興起 

    當我們說“給網頁歸檔”的時候,我們通常把“網頁”作為一個能夠被歸檔的龐大整體,其內容從產生到閱覽及使用都通過一個網絡瀏覽器。最初互聯網的形成就是基于一種這樣的觀念:所有材料通過開放、統一的平臺提供給所有用戶。這一觀念盛行于網絡時代的早期。然而在過去的10年間,隨著社交媒體的興起,一個新的趨勢出現了,即創建網頁的“并行”版本。

    每天上傳到臉書上的兩億多張照片都是通過網絡發布并獲取的,無論是通過電腦的瀏覽器,還是智能手機上的移動應用程序。然而,盡管都以網絡作為物理的通信基礎設施,但是通過社交媒體發布的那些照片、文字信息被儲存在一個并行網絡中,完全由一個商業實體擁有并管理。它不是公共網絡的一部分,也不會被網頁檔案館獲得。正如圖書館在專注于收集書籍的同時,大量存在于信件、日記、圖紙和藝術品中的信息和文化都散失了。而在數字時代,與此不同的是所有這些材料不是分散在個人手中,而是被集中到了商業化的“檔案館”和“圖書館”之中。

    并不是每個人都希望自己與他人的每一番談話都被保存下來。在印刷時代,一個人擁有選擇權。信件、日記和照片都是有物質實體的,被其所有者保存并傳給后代。在數字時代,一個公司往往以服務之名擁有我們的這些私人“檔案”。比如,臉書托管在互聯網上,事實上已經成為一個互聯網的并行版本,但它又是和公共互聯網全然區隔開的,用戶無法為由自己產生的材料存檔。目前,幾乎只有一個社交媒體平臺提供了“輸出”按鍵,允許人們下載這些早前本就是由自己產生“檔案”的拷貝,那就是谷歌+(Google Plus)社群網站提供的谷歌數據下載(Google Takeout)工具。

    推特已經認識到人們通過其平臺發布的交流信息的重要性,并且將這些內容提供給了美國國會圖書館,為后代存檔。而同類機構如臉書、中國新浪微博和俄羅斯知名社交網站VK等國際化平臺則大多沒有這么做。

    關于商業化的社交平臺如何與網絡歸檔組織相互配合,確保通過社交平臺產生的信息能為后世存檔,推特提供了一個有益的例子。像谷歌數據下載這樣的自動歸檔服務,能給用戶提供了一個為后代歸檔的中間步驟。隨著越來越多并行網站的創建,關于人們如何能利用這些服務,確保由自己產生的信息能夠留存的辦法,還應在網絡歸檔過程中進行更廣泛、更深入的探討。(張理平 編譯)

    原載于《中國檔案報》2015年1月19日 總第2713期 第三版

   
責任編輯:張雪
  line>line>

 
關鍵詞: 檔案 作用 未來 網頁
(文/小編)
免責聲明
本文為小編原創作品,作者: 小編。歡迎轉載,轉載請注明原文出處:http://www.szsunz.com/news/201811/1985.html 。本文僅代表作者個人觀點,本站未對其內容進行核實,請讀者僅做參考,如若文中涉及有違公德、觸犯法律的內容,一經發現,立即刪除,作者需自行承擔相應責任。涉及到版權或其他問題,請及時聯系我們kf@dawindow.com。
 

Copyright ? 2018 檔案之窗(dawindow.com) ??? 深圳司捷科技有限公司? ? 版權所有       粵ICP備18047471號-1