計算機信息檢索,實質上由計算機將輸入的檢索策略與系統中存貯的文獻特征標識及其邏輯組配關系進行類比、匹配的過程。由於信息需求本身具有不確定性,加之對數據庫中的文獻特征標識不能充分了解,以及系統功能的某些限制,都會不同程度地影響檢索效果。但是只要遵循壹定的檢索步驟,制定良好的檢索策略,便可以減少各種不利因素的影響,盡可能地使檢索提問標識與信息需求和檢索系統保持良好的壹致性,從而在系統中檢索出滿足用戶需求的信。
1.檢索步驟
(1)弄清信息需求,明確檢索目的
信息需求是人們客觀上或主觀上對各種情報信息的壹種需求。這種需求是人們索取情報信息的出發點,也是聯機信息檢索時選擇數據庫、確定檢索策略以及評價檢索效果的依據。不同類型的課題,其信息需求的範圍和程度也不盡相同。例如,申請發明、申報成果獎勵、鑒定及立項類的查新課題,往往需要全面地收集某壹主題範圍的文獻信息,這類課題具有普查、追溯的特點,應著眼於查全;而對於科研、生產中為解決某壹特定問題的攻關課題,往往只要求檢出的信息對自己的研究有所幫助,而對查找的文獻範圍不需要很廣。因此,這類課題則要求查準。
如何對信息需求進行正確的分析呢?不妨從信息需求的形式和內容兩方面來分析。有關信息的形式需求要明確的問題有:
①明確檢索目的。檢索是為了申報成果,還是為了了解學科的最新進展等等,據此以制定出符合查全或查準要求的檢索策略。
②明確所需的文獻量。規定所需文獻數量的上限,對以後確定檢索策略和控制檢索費用是壹個很重要的參數;同時還需對檢索課題可能有的相關文獻量做出估計。
③明確所需文獻的語種、年代範圍、類型、作者或其他外表特征,這對限定檢索範圍也很重要。
關於信息的內容需求要明確的主要問題有:
①明確檢索課題內容涉及的主要學科範圍,這對以後選擇合適的數據庫很重要。
②分析檢索課題的主要內容,用自然語言來表達這些內容要求,這是聯機檢索中較為重要的環節。
(2)選擇數據庫,確定檢索途徑
分析了信息需求後,可根據已知的條件來選擇合適的數據庫,這壹步隱含了檢索系統的選擇。如欲檢索國外專利文獻,則可以檢索國內的BDSIRS系統的GWZL庫。但其提供的檢索途徑及報道最新專利文獻方面不及美國的DIALOG系統的WPI庫,當檢索要求較高時,仍常選用美國的DIALOG系統。
選擇數據庫時,首先應了解:
①數據庫收錄的信息所涉及的學科領域;
②收錄的文獻類型,最好能進壹步了解文獻的主要來源;
③收錄的時間範圍;
④數據庫的基本索引及輔助索引,它們提供的檢索途徑及檢索標識的特點;
⑤數據庫的檢索費用,包括機時費和每篇記錄的打印費。
數據庫選定之後,其提供的檢索途徑也隨之確定,並可根據已知的條件來確定某壹個或幾個檢索途徑。由於計算機存貯容量大和運算速度快,又對比較多的字段建立了索引,它不僅可以從手檢中常用的主題詞、分類號及作者等途徑檢索,而且可以從篇名、文摘的自由詞、文獻類型、期刊名稱等途徑進行檢索,並且還能利用各種途徑的組配進行交叉檢索,這些都是手工檢索所不及的。
(3)確定課題的概念組面和檢索標識
弄清信息需求,了解了檢索課題的主要內容後,確定其概念組面和檢索標識是重要的壹步。當檢索課題包含較復雜的主題內容時,應明確組成課題內容的幾個概念組面,並通過壹定的邏輯組配形成壹定的復合概念或概念關系來表達用戶的信息需求。
確定了課題的概念組面,還須將概念組面轉換成相應的為系統所識別的檢索標識,檢索標識的表示應符合兩方面的要求,壹是切題性,即檢索標識反映信息需求;二是匹配性,即檢索標識和檢索系統的存貯特征標識相壹致。
檢索標識壹般有如下三種形式:
①規範詞: 從待檢數據庫的敘詞表或主題詞表中選取規範化的詞或詞組,因為詞表是數據庫標引和檢索必須***同遵循使用的檢索語言。為了使檢索提問標識與文獻特征標識相壹致,獲得最佳的檢索效果,應優先選用規範詞。
②規範化的代碼: 索引代碼是數據庫系統為某些主題範疇或主題概念規定的索引單元。這類單元有很好的專指性,是壹種有較好檢索效果的文獻特征標識。如國際專利分類號IC=,PTS數據庫的產品代碼PC=,標準工業代碼SC=等等。
③自由詞:使用自由詞檢索能夠充分利用系統的全文查找功能。規範詞或代碼的選擇需利用詞表或分類表等進行自然語言到規範語言的轉換,而標引人員和檢索人員的思路不壹致時也會影響檢索效果。此時,用自由詞在篇名、文摘甚至全文中查找顯露出壹定優越性,自由詞直接、簡明是科技人員易為接受、較為常用的壹種方法。
④擬定檢索提問式,確定具體的查找程序
檢索提問式,是指計算機信息檢索中用來表達用戶檢索提問的邏輯表達式,由檢索詞和各種布爾邏輯算符、位置算符以及系統規定的其他組配連接符號組成。從某種意義上講,檢索式是檢索策略的具體體現,它的質量好壞,將關系到檢索策略的成敗。
檢索標識確定後,接下來就是用壹定的組配關系把各個檢索標識聯接起來組成檢索提問式,並表達各種復雜的概念關系,以準確地表達信息需求。要註意各種邏輯運算符、位置算符、截詞符等的使用方法,如位置算符的松緊程度及先後次序,還要考慮各個檢索項的限定要求及輸入的次序,以及根據反饋信息對檢索式進行調整等,參見檢索策略部分。
2.檢索策略
(1)檢索策略的概念
所謂檢索策略,就是在分析課題內容具有哪些概念單元的基礎上,確定檢索系統、檢索文檔、檢索途徑和檢索詞,並科學安排各檢索詞之間的位置關系和邏輯關系以及查找步驟等。檢索策略考慮得是否周全,直接影響文獻的查全率和查準率。
(2)制定檢索策略的步驟
制定檢索策略的前提條件是明確數據庫及整個檢索系統的基本性能。不同數據庫收藏內容、標引方法和檢索方法是不同的,不同檢索系統配備不同的技術性能和操作符。在制定檢索策略之前對數據庫有幾條檢索途徑,這些途徑的標引所遵循的規則都必須有比較清醒的認識。如果在提問式中列出系統沒有的檢索點,是不可能檢出文獻的。
(3)制定檢索策略的基礎是弄清檢索課題的內容要求和檢索目的。在這壹基礎上,才能對檢索課題進行概念分析,如果課題屬單壹概念就用單個檢索詞表達,若課題概念復雜,就把復雜概念分解為若於個概念單元,再用邏輯運算符把表達概念單元的檢索詞組配起來。將概念單元轉換為檢索詞時,應盡量選用規範化詞。檢索新課題、邊緣學科或是比較含糊的概念時,應特別小心,因為這些詞往往沒有收入系統,這裏應從專業範疇出發選用本學科內具有檢索意義的關鍵詞即自由詞,不然就會帶來誤檢或漏檢。
(4)檢索策略構成的關鍵是正確地選詞和配備邏輯符。
(5)調整檢索策略。在計算機中檢索中,常常會出現文獻資料過少甚至為零,或文獻資料過多的情況。作為檢索人員,應與用戶進行分析,及時調整檢索策略,以使檢索達到令人滿意的效果。文獻資源過多或過少,均可通過增加檢索項,運用布爾邏輯的組配,以增加或縮小檢索範圍,達到減少或增加命中文獻的目的。通常來說,邏輯與總是縮小檢索範圍,達到查準的目的;邏輯或總是擴大檢索範圍,達到查全的目的。而邏輯非總是排它檢索,縮小檢索範圍,達到查準的目的。
3.檢索效率
檢索效率就是利用檢索系統(或工具)開展檢索服務時產生的有效結果。它直接反映檢索系統的性能,影響系統在信息市場上的競爭能力和用戶的利益。檢索效率包括技術效果和社會經濟效果兩個方面。技術效果主要指系統的性能和服務質量,系統在滿足用戶的信息需要時所達到的程度。社會經濟效果是指系統怎樣經濟有效地滿足用戶需要,使用戶或系統本身獲得壹定的社會效益和經濟效益。我們以下討論的主要是系統技術效果的評價問題。
在檢索中最理想的是查全率和查準率都達到100%,就是數據庫中收錄的全部相關文獻都被檢索出來,而且檢索出來的文獻全部都是相關文獻。但事實上,檢索中有許多因素使這個指標很難達到,總存在壹定的誤差。那麽就出現了兩個評價誤差的指標漏檢率和誤檢率。
在評價工作中,最常用的是查全率和查準率,而且應同時使用,否則就難以反映檢索系統的功能及檢索結果的效率。查準率和查全率結合起來,描述了系統的檢索成功率、查全率和查準率之間有著互逆的關系,就是說查全率提高,查準率就下降,反之亦然。在計算機檢索中,壹般認為查準率為60—70%、查全率為40—60%是較為理想的。
系統的收錄範圍、索引語言、標引和檢索等都是影響查全率和查準率的因素,這裏就不再壹壹細講。
4.提高檢索效率的措施
(1)提高文獻庫的編輯質量,使它的收錄範圍更全面、更切合相應學科或專業的需要,著錄內容更詳細準確。
(2)提高標引質量,標引前後要壹致,用詞要恰當,組配要合理,努力做到:正確揭示主題壹不錯標;全面反映主題壹不漏標;簡練地使用標識壹不濫標。
(3)提高索引語言的專指性和詞表質量。加強對索引詞匯的控制,完善詞表的結構及其參照關系,使索引語言既有利於族性索引,又有利於特性檢索。詞表結構要完善,詞與詞之間關系正確,正確控制同義詞和多義詞,及時反映新學科新技術的術語等。
(4)提高檢索人員的工作水平和能力,了解數據庫收集的內容和加深對詞表結構的理解,正確做出主題分析,選擇合適的檢索文檔,選擇恰當的檢索詞表達查找主題內容,進行恰當的邏輯組配,找出最佳檢索途徑,從而制定出最優的檢索策略。
(5)調整查全率和查準率。
在實際的檢索中可合理地調節查全率和查準率,根據不同的檢索要求,使檢索的結果最大限度地滿足檢索的要求。在實際檢索中,有時對查全率要求很高,希望不遺漏任何壹篇有關的文獻,而查準率低壹點也行;而有時只需測覽壹些新的重要文章,不全部要,這裏就要求較高的查準率,查全率低壹點也行。總之,在檢索時要合理地調節查全率和查準率,從而達到最佳的檢索效果。