經過幾年的發展和探索,搜索引擎越來越貼近人們的需求,搜索引擎的技術也有了很大的發展。搜索引擎的最新技術發展包括以下幾個方面:
首先,提高搜索引擎對用戶檢索問題的理解
為了提高搜索引擎對用戶檢索問題的理解,需要有壹個好的檢索問題語言。為了克服關鍵詞檢索和目錄查詢的缺點,自然語言智能問答應運而生。用戶可以輸入簡單的問題,如“如何才能查殺電腦病毒?”。搜索引擎在分析問題的結構和內容後,要麽直接給出問題的答案,要麽引導用戶從幾個可選問題中重新選擇。自然語言的優勢在於:首先,它使網絡交流更加人性化;其次,它使查詢更加方便、直接和有效。以上面的例子為例。如果用關鍵詞查詢,大部分人會用“病毒”這個詞進行搜索,結果必然會包含各種病毒的介紹、病毒是如何產生的等等很多無效信息。,並使用“如何才能殺死電腦病毒?”搜索引擎會給用戶提供如何查殺病毒的信息,提高了檢索效率。
其次,對檢索結果進行處理
1)基於鏈接評價的搜索引擎。
基於鏈接評價的搜索引擎的優秀代表是Googel(),其獨創的“鏈接評價體系”是基於這樣壹種認識,即壹個網頁的重要性取決於它被其他網頁鏈接過的鏈接數量,尤其是壹些被認定為“重要”的網頁的鏈接數量。這種評價體系與科技引文索引的思想非常相似。但由於互聯網是在商業環境下發展的,壹個網站的鏈接數量與其商業推廣密切相關,所以這種評價體系在壹定程度上缺乏客觀性。
2)基於訪問流行度的搜索引擎。
基於訪問流行度的搜索引擎的代表是直擊,其基本思想是大多數人選擇訪問的網站是最重要的網站。根據成千上萬的網絡用戶在之前的搜索結果中實際選擇和訪問的網站以及他們在這些網站上花費的時間,統計確定相關網站的重要性排名,從而確定哪些網站最符合用戶的搜索要求。因此,它具有典型的從眾特征。這種評價體系與基於鏈接評價的搜索引擎有著相同的缺點。
3)從檢索結果中去除額外的冗余信息。
壹些調查指出,過多的附加信息增加了用戶的信息負擔。為了擺脫這些過多的附加信息,可以采用用戶定制、內容過濾等檢索技術。
第三,確定搜索引擎的信息采集範圍,提高搜索引擎的針對性。
1)垂直主題搜索引擎
互聯網上信息量巨大,網絡資源正以十倍的速度增長。搜索引擎很難收集所有主題的所有網絡信息。即使全面收集信息主題,由於主題涉及面廣,也很難做到所有主題都準確、專業,導致搜索結果過於垃圾。此後,垂直主題的搜索引擎以其高度的客觀性和專業性在各類搜索引擎中占據了壹席之地,如股票、天氣、新聞等搜索引擎。,針對性強,用戶對查詢結果滿意度高。筆者認為垂直題材有很大的發展空間。
2)搜索非www信息
提供FTP等信息檢索。
3)多媒體搜索引擎
多媒體檢索主要包括聲音和圖像檢索。
第四,搜索引擎的技術發展將集中在對搜索結果的處理上,以提供更優化的搜索結果。
1)純搜索引擎
這種搜索引擎沒有自己的信息采集系統,而是使用別人已有的索引數據庫,主要集中在檢索的理念、技術和機制上。
2)元搜索引擎
現在搜索引擎很多,信息收集範圍、搜索機制、算法都不壹樣,用戶要學習多個搜索引擎的用法。每個搜索引擎只能涉及整個www資源的30-50%(搜索引擎手表數據),導致同壹搜索請求在不同搜索引擎獲得的查詢結果重復率不到34%,而每個搜索引擎的查準率不到45%。
元搜索引擎(Metasearch enging)是將用戶提交的搜索請求搜索到多個獨立的搜索引擎,並將搜索結果集中統壹處理,以統壹格式提供給用戶的搜索引擎,因此被稱為搜索引擎之上的搜索引擎。其主要著眼點在於提高搜索速度,智能處理搜索結果,設置個性化搜索功能和人性化搜索界面,具有較高的查全率和查準率。目前比較成功的元搜索引擎有metacrawler、dopile、ixquick等。