1990以前,網絡信息檢索的現狀與發展沒有人能在互聯網上檢索信息。應該說所有的網絡信息檢索工具都是從1990年Alan Emtage等人發明的Archie開始的,雖然當時只能實現簡單意義上的FTP文件檢索。隨著萬維網的出現和發展,基於網頁的信息檢索工具出現並迅速發展。1995基於網絡信息檢索工具本身的元搜索引擎是由華盛頓大學的Eric Selberg發明的。隨著網絡技術的發展,網絡信息檢索工具也獲得了充分的發展,那麽這些檢索工具的現狀和發展趨勢如何呢?本文將對此進行探討。
1.網絡信息檢索工具的現狀及發展趨勢
1.1的狀態。網頁是互聯網最重要的組成部分,也是人們獲取網絡信息最重要的來源。為了方便人們在大量復雜的網頁中找到自己需要的信息,這類檢索工具發展最快。壹般來說,基於網頁的信息檢索工具有兩種:網絡搜索引擎和網絡分類目錄。網絡搜索引擎是通過“網絡蜘蛛”等自動網絡搜索軟件搜索網頁,然後自動索引網頁上的部分或全部字符,形成目標抽象格式文件和網絡可訪問的數據庫,供人們檢索網絡信息的檢索工具。網絡目錄和搜索引擎完全不同。它不會把全網每個網站的所有頁面都放進去,而是由專業人士精心挑選網站首頁,放在相應的類別裏。網絡目錄的信息量比搜索引擎少很多,而且網絡目錄的不同分類標準有些混亂,給人們使用帶來不便。所以雖然它的索引質量比較高,但是使用的人比搜索引擎少很多。
然而,由於網絡信息的復雜性和網絡檢索技術的局限性,這類檢索工具也存在明顯的不足。(1)隨著網頁數量的急劇增加,人工已經無法對其進行有效的分類、索引和利用。互聯網用戶面對的是海量的無組織信息,簡單的關鍵詞搜索,返回的信息量大到用戶無法承受。(2)難以評估信息有用性。壹些網站為了提高自己的地位,在其網頁中重復了大量的某些關鍵詞,這使得它們很容易被壹些著名的搜索引擎選中,但實際上它們可能不會給用戶提供任何有價值的信息。(3)隨著網絡信息的快速變化,人們總是期望挑選出最新的信息。但是網絡信息是時刻變化的,幾乎不可能實時搜索。甚至剛訪問過的網頁也可能隨時更新、過期或刪除。
1.2發展趨勢。網絡信息檢索工具的發展主要體現在進壹步改進和完善檢索工具和技術,以提高檢索服務質量,改變網絡信息檢索不盡人意的方面。主要體現在以下幾個方面:
1.21網絡檢索工具開發提供商之間的合作越來越緊密。過去,壹般的網絡搜索工具提供商只依靠自己的數據庫提供搜索服務,搜索範圍有限。現在,壹些著名的搜索引擎正在購買其他公司的數據庫或技術核心,有些為了方便用戶,已經與其他搜索引擎建立了合作關系。比如著名的雅虎現在使用Google的搜索內核,網易也已經使用Google的搜索內核技術來豐富自己的搜索引擎數據庫,還有矽谷動力、廣州視窗、新浪、搜狐、Chinaren、21cn、263、Tom等搜索引擎使用百度的搜索內核技術等等。
1.22信息檢索工具的專業化和服務內容的深化。壹些檢索工具不再壹味追求增加收錄量和標引量,而是更加註重突出專業特色。在lycos搜索引擎目錄中,我們可以看到商業搜索引擎、IT搜索引擎、人才搜索引擎、金融搜索引擎、醫學搜索引擎等專業化的網絡信息檢索相繼出現,信息檢索工具的專業化已經成為不可逆轉的趨勢。信息檢索服務商深化了服務:Google推出了網頁引用查詢服務,通過該服務可以查看妳想要查詢的信息是否被其他網站引用,讓用戶更好地掌握網頁信息的質量;2003年8月,第三代中文搜索引擎HC問世。它集成了“廣泛的地域搜索”、“強大的行業搜索”、“完善的MP3和Flash搜索”等眾多搜索功能,還開發了“內容相關查詢”和“符合中國特色的模糊查詢”,可以實現拼音查詢和同音字糾錯。
1.23網絡信息工具智能化的發展趨勢:(1)信息檢索工具的智能化首先是網絡蜘蛛的智能化。鑒於網絡信息的動態交替性,網絡蜘蛛通過啟發式學習采取最有效的搜索策略,選擇最佳時間獲取從互聯網上自動收集整理的信息。網絡蜘蛛可以在網絡的任何地方工作,可以挖掘和獲取盡可能多的信息。網絡蜘蛛還應該具有跟蹤和監控網頁的功能。如果網頁被更新或刪除,應及時在數據庫中更新。網絡蜘蛛具有跨平臺工作和處理各種混合文檔結構的能力。(2)其次,檢索軟件的智能化。現在主要有智能搜索引擎,智能瀏覽器,智能代理。這些在線檢索工具非常重視基於自然語言形式的輸入的開發和實現。搜索者可以輸入自己的檢索問題和他們習慣的短語、詞組甚至句子等自然語言形式,智能檢索軟件將能夠自動分析它們,然後形成檢索策略進行檢索。比如現在的百度搜索,可以在妳輸入關鍵詞後,提供壹些相似的關鍵詞供妳選擇,直到找到妳需要的結果。在機器翻譯技術的幫助下,谷歌將壹種自然語言轉換成另壹種語言,使用戶能夠用母語搜索非母語網頁,並用母語瀏覽搜索結果。國外的Eureka、Ask and Ask、ASK Jeeves,通過語義技術和檢索技術的結合,可以實現檢索工具對搜索詞的語義理解,為用戶提供最精準的檢索服務。
2.基於FTP文件的搜索工具。
2.1現狀。如上所述,搜索引擎的雛形和最早的搜索引擎都是基於FTP文件搜索的。最早的FTP搜索引擎是基於文本顯示的Archie。後來由於WEB的出現,壹定程度上影響了FTP搜索引擎的發展。直到基於WEB的FTP搜索引擎的出現,才越來越受到人們的歡迎,用戶數量迅速增加,重要性日益顯現。FTP搜索引擎的作用是收集匿名FTP服務器提供的目錄列表,向用戶提供文件信息查詢服務。目前國內最好最大的FTP文件搜索引擎是天網,現在可以搜索2400萬個文件(數據來自天網首頁)。2002年統計日訪問量40萬次,在世界FTP搜索引擎行業也是佼佼者。此外,還有清華9#搜索引擎、Xi交大思源搜索引擎、華南木棉搜索引擎、網絡指南針、中科大天狼星搜索引擎、南京理工大學“抓網”搜索引擎等國外有Philes.com、AlltheWeb.com、Filesearching.com、souborak.com、ftpfind.com,其中ftpfind.com是國外最先進的,支持站點快照、文件分類等新興功能,文件數據量非常大。
近年來,雖然FTP搜索引擎技術發展很快,但是與WWW搜索引擎相比,FTP搜索引擎數量少,技術不成熟,還有很多需要改進的地方:(1)FTP搜索引擎的數量還比較少,搜索引擎的規模和質量還是取決於其維護的信息量。據統計,世界上匿名FTP服務提供的文件條目有上億條。即使在目前最大的Philes.com,據陳華和李曉明2002年7月的統計,也只有209698206份。(2)檢索功能不完善。檢索功能是搜索引擎最重要的部分。很多搜索引擎無法支持“與”“或”等簡單的布爾檢索,導致數據庫中的文件無法檢索。(3)FTP服務器本身的特點決定了FTP搜索引擎的軟肋,即由於FTP服務器有開放時間,有的限制IP地址,有的限制登錄的用戶數量,不同服務器設置不同的連接端口號,導致部分搜索結果無法訪問,大大降低了用戶的滿意度。
2.2發展趨勢。如上所述,FTP文件搜索引擎技術還不是很成熟,但發展非常迅速,其發展趨勢主要表現在以下幾個方面:(1)檢索功能日益豐富。天網FTP文件搜索引擎現在可以實現基於文件大小、文件上傳日期、網段(如華北網、華東網)的高級搜索,限制搜索結果。AlltheWeb.com增加了檢索方法(正則表達式檢索、精確檢索、瀏覽、區分大小寫等。),並限制了主機(edu或gov或com等)。),文件類型,文件大小,日期等功能。(2)檢索服務的個性化。現在ftp搜索引擎的研究人員已經開始關註這方面。天網FTP搜索引擎有很多可以個性化的選項:可以設置用戶不同喜好的排序方式,可以設置國外文件還是國內文件的優先級,國外文件是否應該優先給國外用戶,FTP或者WWW上的文件是否應該優先,選擇中文還是英文等等。AlltheWeb.com可以完成更多的個性化設置,如選擇主機提供結果,設置語言,設置搜索的文件大小,是否以亮度顯示搜索關鍵詞,設置用戶語言,以及鍵盤快捷鍵。
3.基於網絡檢索工具的檢索技術現狀及發展趨勢。
3.1隨著網上信息資源的擴大和發展,壹個搜索引擎,再完善,也不能滿足壹個人的所有檢索需求。在文獻調查、專題查詢、新聞調查和溯源、軟件和MP3下載地址搜索等情況下,人們需要使用多種搜索引擎進行相互比較、篩選和驗證。為了解決逐壹登錄各搜索引擎,在各搜索引擎中多次輸入同壹搜索請求(搜索字符串)等繁瑣操作,基於網絡搜索工具的搜索工具應運而生。
目前的檢索工具只有兩種:集成搜索引擎和元搜索引擎。所謂集成搜索引擎,就是將幾個獨立的搜索引擎鏈接在壹個搜索界面上的網絡搜索工具。搜索時可以指定壹個搜索引擎或者要求多個引擎同時搜索,搜索結果由各個搜索引擎在不同的頁面上提交。其實就是利用網站鏈接技術形成的搜索引擎集合。集成搜索引擎的制造和維護技術簡單,可以隨時添加、刪除、調整和更新鏈接的搜索引擎,特別是對於大型專業(如FLASH、MP3等。)搜索引擎,在特定用戶群體中很受歡迎。比如在中國,天網和百度搜索霸,在國外,有“搜房”(/)和“互聯網瑞士軍刀”(,雅虎!、Infoseek、Lycos等常用搜索引擎,壹些大型搜索引擎如NorthernLight、HotBot被排除在外,人為限制了搜索資源的使用;(5)在檢索結果方面,元搜索引擎只能返回幾十個“相關性”高的結果,大量具有潛在價值的源搜索引擎的檢索結果被忽略,影響了檢索結果的全面性。
3.2發展趨勢。這類檢索工具的發展趨勢主要表現在以下幾個方面:(1)深化檢索結果的整理。比如Vivisimo,EZ2WWW,MetaCrawler等。可以實現搜索結果的自動分類,讓用戶可以用傳統的方式瀏覽結果,也可以在同壹個屏幕上使用分類結果來提示他們找到自己需要的東西。EZ2WWW高級搜索功能提供1000多種特色資源搜索,可用於目錄搜索。SurfWax有壹個其他元搜索引擎沒有的獨特功能,即點擊每個結果左側的“URL按鈕”圖標,可以瀏覽結果中包含的任何頁面,顯示搜索句子在文件中的位置,還可以存儲搜索結果和文件以備後用。天網有獨特的鏈接檢測功能,可以在幾秒鐘內檢查當前頁面的查詢結果是否可以訪問。如果標記為綠色,則鏈接可以連接(目前只檢測到頁面中以http://和ftp://開頭的鏈接)。(2)搜索界面的個性化趨勢。天網搜霸和谷歌都提供了IE瀏覽器的插件,安裝後會嵌入IE工具欄,用戶無需登錄天網首頁即可搜索。用戶可以將自己喜歡的搜索引擎設置為主搜索,也可以添加自己喜歡的搜索引擎。不久前,天網搜霸剛剛推出了壹款可以嵌入Windows系統任務欄的插件,現在用戶甚至不需要打開IE瀏覽器。Mamma可以選擇使用短語檢索功能,設置檢索時間,設置每頁可以顯示的記錄數。它還提供用於搜索頁面文件標題的特殊檢索服務和通過電子郵件傳輸檢索結果的特殊功能。MetaCrawler可以選擇和調用搜索引擎,根據域名、地區或國家過濾搜索結果,設置最長搜索時間,設置每個頁面可以顯示和允許每個搜索引擎返回的搜索結果數量,設置搜索結果的排序依據(包括相關性、域名和來源搜索引擎)進行自定義和保存。(3)智力。ProFusion可以自動實現符合特殊檢索語法要求的轉換,比如調用Excite、InfoSeek、WebCrawler時將“NEAR”轉換為“AND”,調用GoTo、Yahoo時刪除“NOT”。Mamma還支持常用搜索語法在不同搜索引擎中的轉換;C4可以支持自然語言檢索。雖然它沒有自己的數據庫,但它可以提供在線檢索結果。