美 国 一 级 A 片/午夜免费视频/久久riav/国产人妖 视频专区 - 1024亚洲精品国产

檔案之窗

掃一掃關注

當前位置: 首頁 » 技術 » 檔案管理 » 檔案檢索 » 正文

檔案信息檢索技術新進展

放大字體  縮小字體 發布日期:2018-07-20 11:16:58    瀏覽次數:124    評論:0
導讀

檔案信息檢索技術新進展一、檔案全文檢索技術檔案全文檢索, 又稱檔案原文存儲與檢索, 是借助于光盤存儲器和與縮微設備聯機實現的一種檔案檢索方式。我國自從沈陽市檔案館于1991 年最早開始光盤原文存儲與檢索的應用研究以來, 已有數十個單位相繼進行了原文存儲和檢索的實驗或應用,檔案全文檢索逐漸由實驗向實用化發展。(一)

檔案信息檢索技術新進展

一、檔案全文檢索技術

檔案全文檢索, 又稱檔案原文存儲與檢索, 是借助于光盤存儲器和與縮微設備聯機實現的一種檔案檢索方式。我國自從沈陽市檔案館于1991 年最早開始光盤原文存儲與檢索的應用研究以來, 已有數十個單位相繼進行了原文存儲和檢索的實驗或應用,檔案全文檢索逐漸由實驗向實用化發展。

() 光盤原文存儲

檔案原文存儲與檢索的發展主要依賴于光盤技術的支持。光盤是一種海量存儲載體, 其信息存儲容量極大, 能滿足一般磁盤所不能承受的存儲要求。在多種多樣的光盤載體中, 只讀光盤( CD - ROM) 在檔案自動檢索中應用最多。

CD - ROM 存儲量大, 制作容易, 成本低, 可同微型計算機相連接進行隨機檢索, 因此得到迅速普及。在我國, 由于通訊設施比較落后, 要建立集中式的、大規模的聯機檔案檢索系統, 存在較大的困難。而CD - ROM 技術的采用, 有利于建立分散的、小型的檔案檢索系統, 符合我國檔案檢索工作實際, 將是一種理想的選擇。具體而言, 光盤存儲有下列優缺點:

1 . 優點

(1 ) 光盤具有很大的存儲容量, 耐用, 費用低。

(2 ) 光盤系統可向用戶隨盤提供相當于聯機系統功能的軟件, 便于自動化檢索, 檢索速度快, 且可隨機存取。

(3 ) 可避免使用聯機檢索所必須的電訊設施, 免除了聯機檢索中的電訊費、聯機系統使用費, 還可避免遠距離電訊傳輸時可能出現的通訊失誤。

(4 ) 一旦訂購了光盤數據庫, 其使用量就沒有限制, 不必在使用時受到經費的壓力。

(5 ) 可以將文本、圖像、聲音等信息結合在一起, 擴大檔案數據庫的用戶范圍。

(6 ) 光盤系統的圖像輸出質量好, 可改善字跡模糊檔案文件的可讀性。

2 . 缺點

(1 ) 購買( 或租用) 光盤數據庫, 不管其中的記錄是否被利用, 都必須全部一次付費。因此光盤系統如果使用量太少, 就顯得十分昂貴。

(2 ) 由一個單位建立的光盤系統, 可供利用的檔案信息資源十分有限。

(3 ) 光盤數據庫的更新是定期進行的, 其現實性不如聯機檢索系統的數據庫。

(4 ) 當前的光盤系統多為單用戶性質, 每次只能由一個檢索者使用。

(5 ) 缺乏設備和軟件的兼容性, 標準化問題需進一步解決。

() 檔案全文數據庫

檔案全文數據庫是以電子形式存儲檔案全文信息的數據庫,通過全文數據庫可以檢索檔案中的任何字、句、段、節等。

全文數據庫的特點如下:

(1 ) 可以直接存取原始文獻中的專門數據, 檢準率高。

(2 ) 檢索及時。二次文獻數據庫需進行著錄、標引等費時費力的前期加工, 而全文數據庫直接輸入檔案全文, 可提供非常及時的信息。

(3 ) 可從中找到邊緣性的情報。一般的目錄、索引、文摘等只收入檔案的主要信息, 一些邊緣性情報往往被遺漏, 而全文數據庫收錄的是檔案全文信息, 不會遺漏一個字句。

(4 ) 采用自然語言檢索。全文數據庫使用的是檔案作者所用的自然語言, 因此無經驗的用戶也可很容易地使用。

() 全文檢索技術

目前的全文檢索技術與一般的檔案檢索技術十分相近, 類似于一般的順序檢索, 但更早地采用了“一次掃描技術”。即當檢索提問中有若干個檢索詞時, 系統不必用每個檢索詞逐個地對全文進行掃描, 而是將其組成一個有限自動機, 從而對檔案進行一次性掃描。

全文檢索系統采用自然語言檢索, 大大提高了檢準率和系統的易用性, 但卻導致檢全率的降低, 而后控詞表是解決此問題的有效途徑。后控詞表綜合了自然語言和常規的受控語言的長處,對于提高全文檢索系統的檢索效率有著重要作用。目前有關這方面的研究還不是很多, 國內基本還處于試驗階段, 但已取得了一些進展。如北京文獻服務處“ 漢語自動切詞標引系統( CWSAIS)”中采用的基于相關標引模式的后控技術, 上海空軍政治學院圖書檔案系開發的“ 漢語題內關鍵詞索引及后控制詞表系統” 等。

全文檢索技術在以下方面有新的發展:

(1 ) 附加光盤。這樣可以允許查找目前聯機檢索系統還不能提供的照片、插圖及其他圖解。例如, 美國的書目檢索服務公司(BRS) 系統已經利用光盤來增強它們的醫學全文數據庫, 文本的聯機檢索與顯示仍然通過BRS 的主機, 但當文本中必須附以插圖時, 可以使用光盤補充功能來提供相應的插圖。

(2 ) 提供更有效的接口。由于全文數據庫的主要用戶是最終用戶, 因而全文系統必須是容易查找的, 必須提供適當的檢索與顯示功能, 如怎樣方便瀏覽被檢出的文獻, 利用共同命令語言存取其他系統的方法等, 為用戶提供更有效的接口。

(3 ) 有關文本分析方面的研究。包括對文本的切分、描述、分類、修改、轉換、鑒別等。

二、多媒體存儲與檢索技術

多媒體存儲與檢索技術是指將文本、數值、圖形、圖像、聲音等多種類型的檔案信息進行綜合處理的技術。迄今為止, 已有不少多媒體系統問世, 其中大多是實驗性系統, 只在有限的范圍內使用。如清華大學檔案館開發的“ T HDA 文檔一體化多媒體光盤網絡系統” 等。

實際上, 目前的多媒體系統大多是將圖與聲壓縮后當成一個文件甚至一個記錄存儲到計算機中, 使用時即可與文本信息一樣地使用, 并且借助于附加在圖形或聲音旁的標引信息( 如現在的圖像信息常附有一個關鍵詞) 來實現對圖形與聲音的檢索。而對圖和聲的直接檢索則是今后的發展方向。

多媒體存儲與檢索技術能夠使用戶方便、直觀、迅速地獲取全方位的檔案信息, 保證了檔案信息的完整性與準確性。本地區、本部門舉行的重大活動, 召開的重要會議等實況錄像、錄音均可錄入計算機供隨時調用, 體現了檔案的原始記錄性。對于利用者來說, 檔案由干巴巴的文字變成了內容豐富、聲文并茂、生動形象的立體信息, 由此可大大提高檔案的利用率。另外, 由于計算機在檔案人員操作下只顯示利用者所需信息, 消除了利用者查閱整本案卷時翻閱其他文件的可能性, 可起到一定的保密作用, 還可避免檔案因不時取出翻閱而造成的磨損。

多媒體檢索系統是迅速發展的信息技術的結果, 與多媒體檢索系統有關的技術包括:

1 . 數字信息處理技術

包括模擬信號與數字信號的相互轉換, 文本、數值、圖像、數字語言信息的編碼與解碼技術。這些技術的發展使得圖像和音響成為計算機可處理的數據。

2 . 計算機存儲技術

全文本、圖形畫面和語音信息都要求很大的存儲空間, 海量存儲技術的發展滿足了多媒體系統對存儲空間的要求。輸入輸出設備的發展( 鼠標掃描器、高分辨率顯示和打印設備、圖形工作站等) 則為圖像、語音的輸入輸出提供了有效手段, 使用戶能方便地、直接地生成和獲取多媒體數據。

3 . 面向對象的數據庫理論和技術

傳統的數據庫管理系統主要適應于格式化和結構化數據, 而文本、圖像、語音等都是非結構化數據, 面向對象的數據庫技術就是為了解決非結構化數據的組織和管理問題而發展起來的, 它為多媒體檢索系統提供了理論依據和方法、手段。

迄今為止, 研究人員在多媒體系統方面所做的大部分工作都側重于多媒體數據的存儲和傳輸上, 而針對多媒體信息和數據的組織及其檢索方面所作的研究還很有限, 而這正是多媒體檢索系統發展的關鍵問題。

三、檔案智能檢索技術

檔案智能檢索技術是應用人工智能技術模擬檔案檢索的過程, 實現檔案信息的存儲、檢索和推理的一種先進的檔案檢索技術。從國防科工委檔案館等單位研制的實驗性的智能化系統來看, 這種智能檢索系統可以部分實現自然語言檢索, 提高檢全率和檢準率, 代表了檔案檢索系統的發展方向。

() 智能檔案檢索系統的特點

(1 ) 建立在知識庫的基礎上, 具有很高的推理功能。這是它與一般檔案檢索系統的主要區別。

(2 ) 使用自然語言進行交互。采用高級的自然語言處理技術, 來理解、分析用戶的提問和向用戶提供檢索結果。

(3 ) 面向用戶。能把智能性工作從用戶身上轉移到機器上解決, 如描述情報需求, 制定檢索策略及分析結果等。

(4 ) 適用性廣。適于不同類型的用戶, 尤其是無經驗的用戶。

(5 ) 具有學習能力。可以從用戶與系統的交互中獲取知識,使系統適應環境的變化而發展變化。

() 智能檔案檢索系統的結構與功能

1 . 知識庫

知識庫中包含了滿足檔案檢索要求所需要的各種知識, 如文獻知識、專業知識、專家知識、語言學知識等。

2 . 數據庫

存儲大量事實型數據以及推理過程中的中間結果信息等。

3 . 檢索推理機

綜合應用各種檢索策略和推理技術, 利用知識庫中的知識,按一定的推理策略解決用戶的問題。

4 . 文本處理

利用計算機自動處理自然語言形式的文本信息, 對文本進行語法、語義分析, 并采用知識表示方法表達檔案內容及其語義關系。

5 . 人機接口

理解、分析用戶提問, 產生適于用戶的結果, 并具有解釋功能。

6 . 知識獲取

利用機器學習技術, 從各種知識源中獲取知識。

下面是智能檔案檢索系統的結構功能圖:

 
(文/小編)
免責聲明
本文為小編原創作品,作者: 小編。歡迎轉載,轉載請注明原文出處:http://www.szsunz.com/tech/201807/47.html 。本文僅代表作者個人觀點,本站未對其內容進行核實,請讀者僅做參考,如若文中涉及有違公德、觸犯法律的內容,一經發現,立即刪除,作者需自行承擔相應責任。涉及到版權或其他問題,請及時聯系我們kf@dawindow.com。
 

Copyright ? 2018 檔案之窗(dawindow.com) ??? 深圳司捷科技有限公司? ? 版權所有       粵ICP備18047471號-1