當前位置:吉日网官网 - 傳統節日 - 中國搜索引擎搜索的兩種主要方式是什麽?

中國搜索引擎搜索的兩種主要方式是什麽?

現有的搜索引擎基本上分為三類:

1.1單壹搜索引擎(獨立搜索引擎)它的特點是只在搜索引擎本身的數據庫中檢索信息,比如雅虎。

1.2元搜索引擎(Meta search engine)在檢索信息時通過調用其他獨立搜索引擎來完成檢索功能,可以對從多個獨立搜索引擎查詢到的結果進行不同程度的處理,如刪除重復結果、檢查連接、根據相關性對結果進行排序等。元搜索引擎本身可能有也可能沒有自己的數據庫。由於不同元搜索引擎鏈接的獨立搜索引擎不同,獨立搜索引擎的查詢語法差異較大,元搜索引擎本身只支持AND、0R、N0T等簡單的語法操作,返回的結果只能滿足“最小公分母”,即無法提高搜索結果的準確率。

1.3網絡搜索引擎(網絡搜索軟件)是指網絡用戶可以將相應的搜索軟件下載到自己的本地電腦上,安裝查詢。這是壹個具有網絡查詢功能的離線瀏覽器。與元搜索引擎相比,可以靈活控制輸出結果,其最大特點是方便用戶使用,可以快速查詢網絡相關資源。2網絡搜索引擎的工作原理和基本組成

當用戶檢索信息時,搜索引擎根據用戶的查詢需求從索引數據庫中搜索相應的信息,並按照壹定的算法返回給用戶。為了保證用戶搜索到的信息的準確性和新鮮度。對於壹個獨立的搜索引擎來說,還需要建立和維護壹個龐大的數據庫。獨立搜索引擎的索引數據庫中的信息是通過壹個叫蜘蛛的程序軟件定期在互聯網上抓取的。通過訪問公網公共區域的每壹個站點,收集網絡的信息資源,然後由索引軟件對收集到的信息進行自動索引,創建網頁索引數據庫,供用戶根據關鍵詞進行查詢,搜索軟件通過索引數據庫為用戶提供查詢服務。所以壹般的搜索引擎主要由三部分組成:網絡蜘蛛、索引和搜索軟件。

網絡蜘蛛。是壹個非常強大的程序,它會根據預設的地址定期檢查相應的網頁,如果網頁發生變化,它會重新獲取網頁,否則它會根據網頁中的鏈接繼續訪問。網絡蜘蛛訪問網頁的過程就是在互聯網上遍歷信息的過程。網絡蜘蛛為了保證遍歷信息的廣度,壹般會提前設置壹些重要的鏈接,然後再進行遍歷。在遍歷的過程中,不斷記錄網頁中的鏈接,繼續遍歷,直到訪問完所有鏈接。

索引軟件。網絡蜘蛛將通過遍歷數據庫中的搜索集獲得的網頁存儲起來。為了提高檢索效率,有必要建立索引。索引壹般是倒排索引。

搜索軟件。該軟件用於篩選索引數據庫中的無數網頁,選擇符合用戶檢索要求的網頁並進行排序。然後將分層排序後的結果顯示給用戶。

3搜索引擎的主要性能評價指標

3.1搜索引擎索引方法數據庫中的索引壹般按照倒排文檔的文件格式存儲,不同的搜索引擎在建立索引時有不同的選項。壹些搜索引擎為信息頁面建立全文索引;而另壹些僅創建段落前部的摘要部分或索引;壹些搜索引擎,如Google,在建立索引時也會考慮超文本的不同標簽所表達的不同含義。用粗體大字體顯示的東西往往更重要;錨鏈中放置的信息往往是它所指向的頁面的信息匯總,所以作為它所指向的頁面的重要信息。Google和infoseek也在索引的過程中收集頁面中的超鏈接。這些超鏈接反映了所收集信息的空間結構,利用這些結果可以提高判斷頁面相關性的準確性。由於索引不同,檢索信息時結果會有所不同。

3.2搜索引擎的搜索功能搜索引擎支持的搜索功能的數量及其實現的質量直接決定了檢索的質量。因此,網絡檢索工具除了支持布爾檢索、鄰近檢索、詞截斷檢索、字段檢索等基本檢索功能外,還應根據網上信息資源的變化,及時應用新的技術和方法,完善高級檢索功能。此外,由於中文信息編碼不統壹的獨特問題,如果搜索引擎能夠實現不同內碼之間的自動轉換,用戶將全面檢索中國大陸、港臺乃至全球的中文信息。這不僅能提高搜索引擎的質量,還能得到用戶的支持。

3.3搜索引擎的檢索效果可以從響應時間、召回率、查準率和相關性等方面來衡量。響應時間是用戶輸入檢索類型並開始查詢和檢查結果的時間。查全率是指壹個搜索結果中符合用戶要求的數量與用戶查詢相關的總數量的比值;精度是指壹個搜索結果集中用戶需求的數量與搜索結果總數的比值;相似性是指用戶的查詢和搜索結果之間的相似性的度量。盡管不可能估計網絡上與檢索問題相關的所有信息量。所以目前還沒有更好的方法來定量計算召回率,但作為評價檢索效果的指標還是值得保留的。精準也是壹個復雜的概念,壹方面表示搜索引擎對搜索結果的排名,另壹方面反映搜索引擎對垃圾網頁的抗幹擾能力。總之,壹個好的搜索指南應該是響應速度快,召回率和準確率高,或者相似度大。

3.4搜索引擎的受歡迎程度搜索引擎的受歡迎程度反映了用戶對搜索引擎的偏好。知名度高、性能穩定、搜索質量好的搜索引擎很受用戶歡迎。搜索引擎的受歡迎程度也會隨著其受歡迎程度和服務水平而動態變化。搜索引擎的服務水平與其收集的信息量、信息的新鮮度和查詢的準確性有關。隨著各種新的搜索技術的出現,支持多媒體檢索的智能搜索引擎將越來越受到用戶的歡迎。

此外,搜索引擎的信息擁有量也可以作為評價搜索引擎性能的指標。總結壹下,評價搜索引擎的性能指標可以概括為:a .建立索引的方法(全文索引、部分索引、按重要性排序的索引等。);b .檢索功能(支持的檢索技術、多媒體檢索、內碼處理等。);c .查詢效果(響應時間、召回率、精確率、相關性);d .知名度;e .信息占有。4搜索引擎信息檢索的局限性

根據Roper 2006 54 38+0的調查,36%的互聯網用戶每周花在網上搜索的時間超過2小時。71%用戶在使用搜索引擎時遇到過麻煩;平均搜索12分鐘後,搜索受挫。Keen進行的另壹項調查顯示,365,438+0%的人使用搜索引擎尋找答案,其中超過壹半的人在網上尋找答案不成功。從這些調查數據中不難看出。目前的搜索引擎仍然有許多局限性。總的來說有以下幾個方面。

4.1搜索引擎對信息的索引不夠深入。目前搜索引擎的搜索結果往往只提供壹些包括關鍵詞在內的線性網站和網頁信息,與人們的預期相差甚遠,或者返回過多無用信息或者丟失信息,特別是對於特定文獻數據庫的檢索。

4.2搜索引擎的信息量不足。作為搜索引擎,它必須擁有相當大的信息量,才能具有壹定的召回率和實用性。目前還沒有壹個搜索引擎能夠覆蓋整個互聯網信息資源。

4.3搜索引擎的準確率不高。這是因為:壹方面,網上信息量巨大,內容龐大,良莠不齊,信息質量無法保證;另壹方面,由於大部分搜索引擎是由程序自動索引的,所以關鍵詞是根據網頁中的詞頻、詞的位置等因素來確定的。壹些網站為了提高點擊率,將壹些與網頁主題無關的流行詞以隱含的方式投放,並多次重復,導致準確率不高。

4.4檢索功能單壹,缺乏靈活性。目前很多搜索引擎的查詢方式比較簡單,壹般只提供分類查詢方式和關鍵詞查詢方式。我們不能從文獻的多個方面來限制搜索問題,而只能籠統地搜索壹個關鍵詞或概念。

4.5搜索引擎本身的技術限制,比如目前有些搜索引擎還不能支持多媒體信息的檢索。造成上述信息檢索困難的原因在於,搜索引擎只是用機械的詞語匹配來實現要檢索的信息,缺乏知識處理能力和理解能力。也就是說,搜索引擎無法處理用戶看似很普通的常識性知識,更不用說因用戶而異的個性化知識、因地域而異的區域性知識、因領域而異的專業性知識。5搜索引擎的未來發展趨勢

新壹代搜索引擎的發展目標是利用新興的搜索技術,為用戶提供更方便、更準確的搜索工具,滿足他們的信息查詢需求。技術上要在自然語言理解技術上有所突破,重點是XML可擴展標記語言,使用向導技術。以下是對搜索引擎發展趨勢的壹些看法。

& ltstrong & gt回答補充

5.1垂直專業領域搜索由於社會分工的增加,用戶從事的職業不同,不同的用戶對信息搜索往往有自己的專業要求。因為綜合搜索引擎包含了各方面、學科、行業的信息,不相關的信息太多,專業的垂直引擎可以解決這個問題。垂直搜索引擎只面向某壹特定領域,專註於自己的特長和核心技術,可以保證該領域信息的完全收錄和及時更新。因此,基於專業領域的“垂直搜索引擎”成為搜索引擎發展的新趨勢。

5.2智能搜索傳統的搜索引擎是被動搜索,精準搜索要建立在對收錄信息和搜索請求的理解上。顯然,基於自然語言理解技術的搜索引擎能夠用自然語言與用戶對話,深入理解用戶的搜索請求,因此查詢結果更好。

增加準確性。

5.3關系型綜合搜索所謂關系型綜合搜索,就是這樣壹種壹站式的搜索服務,使得用戶在搜索時只需輸入壹次查詢目標,即可以在同壹個界面得到各種相關的查詢結果。這項服務的關鍵是擁有壹個基於XML的集成信息平臺。& ltstrong & gt回答補充

5.4個性化搜索提高搜索準確率的另壹種方法是提供個性化搜索,即在個性化的搜索環境中構建搜索,其核心是跟蹤用戶的搜索行為,通過對用戶的不斷了解和分析,積累個性化的搜索數據,提高用戶的搜索效率。

5.5結構化搜索所謂結構化搜索,是指充分利用XML等技術將信息結構化,同時使用查詢結構,從而大大提高搜索的準確率。

5.6本地化搜索世界上很多著名的搜索引擎都位於美國。他們完全按照自己的思維方式和觀點來收集和檢索基於英語的信息,這顯然不適合全球不同國家的用戶。不同國家的文化傳統、思維方式、生活習慣不同,對網站內容的搜索要求也有差異。如果搜索結果符合本地用戶的要求,搜索引擎必須本地化。

5.7多媒體搜索。隨著寬帶技術的發展,未來的互聯網是多媒體數據的時代。開發壹個可以查詢圖像、聲音、圖片、電影的搜索引擎是壹個新的方向,也將極大地滿足用戶的需求。未來的搜索引擎應該擁有更多的信息,更快的搜索速度,更高的搜索準確率,更好地滿足用戶的信息查詢需求。

  • 上一篇:歐洲傳統珠寶
  • 下一篇:大學生歌唱比賽活動策劃書
  • copyright 2024吉日网官网