計算機檔案信息檢索技術
一、加權檢索
所謂加權檢索, 就是在檢索時, 給每個檢索詞一個表示其重要程度的數值( 即所謂“ 權”) , 對含有這些檢索詞的檔案進行加權計算, 其和在規定的數值之上者作為檢索結果輸出。權值的大小可以表示被檢出檔案的切題程度。加權檢索可對檢出檔案材料進行相關性排序輸出, 也可根據檢準率的要求進行靈活的分等輸出, 輸出時按權值大小排列, 只打印權值超過閾值的相關文獻。
檢索詞的權值是按照提問者的需要給的。例如, 有一個檢索課題是關于糧食收購政策的, 可分別給檢索詞一定的權數:
糧食30
收購30
政策40
檢索時, 檢出一系列有關檔案材料, 按權值遞減排列如下:權值
100 = 30 + 30 + 40 糧食收購政策
70 = 30 + 40 糧食政策
60 = 30 + 30 糧食收購
若指定權值大于或等于70 的為命中文獻(70 為閾值) , 則只有有關糧食收購政策和糧食政策的檔案材料被打印輸出。
加權檢索有許多具體方法。例如, 在計算檢索式的權數時,若檢索項用邏輯乘運算, 則取大的權數作命中檔案的權數; 若用邏輯和運算, 則取命中文獻中含有的檢索項的權之和為命中檔案權數; 若用邏輯非運算, 則取前一個檢索項的權作為命中檔案的權數。另外, 在石油部情報所的API 檢索系統中, 將權分為六等, 即* ; P ; N; D; B; A。星號權最高, A 權最低。檢索時可按用戶需要分等輸出檢索結果。
在實際檢索過程中, 到底采用哪種方法, 應根據用戶的檢索要求以及檢索系統所能提供的檢索功能而定。
二、截詞檢索
所謂截詞檢索, 就是把檢索詞加上某種符號截斷, 讓計算機按照檢索詞的部分片斷同索引詞進行對比, 以提供族性檢索的功能。截詞檢索主要用于西文文獻的檢索中。
截詞檢索可采用右截斷( 前方一致) 、左截斷( 后方一致)、左右同時截斷( 中間一致) 三種方法。
1 . 前方一致
即將檢索詞的詞尾部分截斷, 右截斷在計算機檢索中廣泛應用, 這種方法可以省去鍵入各種詞尾有變化的檢索詞的麻煩, 有助于提高檢全率。例如, 鍵入檢索詞Comput er + (“ + ” 為截斷符號) 可以檢索出任何含有Computer 開頭的檢索詞的文獻, 如Comput ers , Computerise , Compute rize 等。
2 . 后方一致
把截斷符號放在字根的左邊, 如+ Compute r , 那么計算機在進行匹配時, 索引詞Minicomputer , Microcomp ute r 等均算命中。
3 . 中間一致
將字根左右詞頭、詞尾部分同時截斷, 例如: + compute r+ , 可以命中包含該字根的所有索引詞, 如minicomputer , microcomputer , compute rs , minicomputers , 等等。這種左右同時截斷的方法, 在檢索較廣泛課題的材料時比較有用, 可獲得較高的檢全率。
需要指出的是, 截詞檢索有可能檢索出大量無關材料, 針對這種情況, 某些計算機檢索系統規定了右截斷的限度, 如在截斷符號后加入一個限定字母數的值, 例如: Circ * 3 可以包括Circle(圓) , Circlet ( 環形飾物) , Circula r ( 圓形的) , 但不包括Cir cuity (轉彎抹角) , Circulation ( 流通) Circumst ance ( 環境)等。
三、限定檢索
在計算機檢索系統中通常具有限定檢索的手段, 以縮小檢索范圍。這種限定檢索主要采用字段檢索方式, 即將檢索限制在某一特定的字段范圍內, 以提高檢準率。例如:
環境保護( LA)
在這里, 是用語種進行限定, 括號內的“LA” 表示語言, 意指該檢索詞只在語言字段進行檢索。除此之外, 還可用文獻類型、作者、國別、出版年、數據庫更新時間等進行限定