百度 google Yahoo雅虎 搜狐搜尋 新浪搜尋 網易搜尋 中搜 天網搜尋 中華搜尋 極限搜尋 網蛙搜尋 3721搜尋TOM搜尋
目錄索引類搜尋引擎有哪些壹般是分普通網站內容和音樂兩種
百度 google Yahoo雅虎 搜狐搜尋 新浪搜尋 網易搜尋 中搜 天網搜尋 中華搜尋 極限搜尋 網蛙搜尋 3721搜尋 QQ搜尋 TOM搜尋
目錄索引搜尋引擎怎樣操作?主要技術
壹個搜尋引擎由搜尋器、索引器、檢索器和使用者介面等四個部分組成。
搜尋器
搜尋器的功能是在網際網路中漫遊,發現和蒐集資訊。它常常是壹個計算機程式,日夜不停地執行。它要盡可能多、盡可能快地蒐集各種型別的新資訊,同時因為網際網路上的資訊更新很快,所以還要定期更新已經蒐集過的舊資訊,以避免死連線和無效連線。目前有兩種蒐集資訊的策略:
● 從壹個起始URL集合開始,順著這些URL中的超鏈(Hyperlink),以寬度優先、深度優先或啟發式方式回圈地在網際網路中發現資訊。這些起始URL可以是任意的URL,但常常是壹些非常流行、包含很多連結的站點(如Yahoo!)。
● 將Web空間按照域名、IP地址或國家域名劃分,每個搜尋器負責壹個子空間的窮盡搜尋。
搜尋器蒐集的資訊型別多種多樣,包括HTML、XML、Newsgroup文章、FTP檔案、字處理文件、多媒體資訊。
搜尋器的實現常常用分散式、平行計算技術,以提高資訊發現和更新的速度。商業搜尋引擎的資訊發現可以達到每天幾百萬網頁。
索引器
索引器的功能是理解搜尋器所搜尋的資訊,從中抽取出索引項,用於表示文件以及生成文件庫的索引表。
索引項有客觀索引項和內容索引項兩種:客觀項與文件的語意內容無關,如作者名、URL、更新時間、編碼、長度、連結
流行度(Link
Popularity)等等;內容索引項是用來反映文件內容的,如關鍵詞及其權重、短語、單字等等。內容索引項可以分為單索引項和多索引項(或稱短語索引
項)兩種。單索引項對於英文來講是英語單詞,比較容易提取,因為單詞之間有天然的分隔符(空格);對於中文等連續書寫的語言,必須進行詞語的切分。
在搜尋引擎中,壹般要給單索引項賦與壹個權值,以表示該索引項對文件的區分度,同時用來計算查詢結果的相關度。使用的方法壹般有統計法、資訊理論法和概率法。短語索引項的提取方法有統計法、概率法和語言學法。
索引表壹般使用某種形式的倒排表(Inversion List),即由索引項查詢相應的文件。索引表也可能要記錄索引項在文件中出現的位置,以便檢索器計算索引項之間的相鄰或接近關系(proximity)。
索引器可以使用集中式索引演算法或分散式索引演算法。當資料量很大時,必須實現即時索引(Instant Indexing),否則不能夠跟上資訊量急劇增加的速度。索引演算法對索引器的效能(如大規模峰值查詢時的響應速度)有很大的影響。壹個搜尋引擎的有效性在很大程度上取決於索引的質量。
檢索器
檢索器的功能是根據使用者的查詢在索引庫中快速檢出文件,進行文件與查詢的相關度評價,對將要輸出的結果進行排序,並實現某種使用者相關性反饋機制。
檢索器常用的資訊檢索模型有集合理論模型、代數模型、概率模型和混合模型四種。
4.使用者介面
使用者介面的作用是輸入使用者查詢、顯示查詢結果、提供使用者相關性反饋機制。主要的目的是方便使用者使用搜索引擎,高效率、多方式地從搜尋引擎中得到有效、及時的資訊。使用者介面的設計和實現使用人機互動的理論和方法,以充分適應人類的思維習慣。 使用者輸入介面可以分為簡單介面和復雜介面兩種。
簡單介面只提供使用者輸入查詢串的文字框;復雜介面可以讓使用者對查詢進行限制,如邏輯運算(與、或、非;+、-)、相近關系(相鄰、NEAR)、域名範圍(如.edu、.)、出現位置(如標題、內容)、資訊時間、長度等等。壹些公司和機構正在考慮制定查詢選項的標準。
特點
首先,搜尋引擎屬於自動網站檢索,而目錄索引則完全依賴手工操作。使用者提交網站後,目錄編輯人員會親自瀏覽妳的網站,然後根據壹套自定的評判標準甚至編輯人員的主觀印象,決定是否接納妳的網站。
其次,搜尋引擎收錄網站時,只要網站本身沒有違反有關的規則,壹般都能登入成功。而目錄索引對網站的要求則高得多,有時即使登入多次也不壹定成功。尤其象Yahoo這樣的超級索引,登入更是困難。
此外,在登入搜尋引擎時,我們壹般不用考慮網站的分類問題,而登入目錄索引時則必須將網站放在壹個最合適的目錄(Directory)。
最後,搜尋引擎中
各網站的有關資訊都是從使用者網頁中自動提取的,所以使用者的角度看,我們擁有更多的自主權;而目錄索引則要求必須手工另外填寫網站資訊,而且還有各種各樣的
限制。更有甚者,如果工作人員認為妳提交網站的目錄、網站資訊不合適,他可以隨時對其進行調整,當然事先是不會和妳商量的。
目錄索引,顧名思義就是將網站分門別類地存放在相應的目錄中,因此使用者在查詢資訊時,可選擇關鍵詞搜尋,也可按分類目錄逐層查詢。如以關鍵詞搜尋,返回的結果跟搜尋引擎壹樣,也是根據資訊關聯程度排列網站,只不過其中人為因素要多壹些。如果按分層目錄查詢,某壹目錄中網站的排名則是由標題字母的先後順序決定(也有例外)。
meta標簽對目錄索引搜尋引擎有效嗎在網頁的HTML原始碼中壹個重要的程式碼“”(即通常所說的META標簽)。META標簽用來描述壹個HTML網頁文件的屬性,例如作者、日期和時間、網頁描述、關鍵詞、頁面重新整理等。
目錄索引類,元,全文搜尋引擎有哪些?搜尋引擎按照工作方式可以分為三類:1、目錄搜尋引擎:目錄搜尋引擎主要有yahoo!、LookSmart、About、DMOZ、Galaxy等。2、全文搜尋引擎:全文搜尋引擎主要有Google、百度、AltaVista、Inktomi、Alltheweb等。3、元搜尋引擎:元搜尋引擎主要有InfoSpace、Dogpile、Vivisimo、北大天網、搜狐、Lycos、Meta crawler等。
誰知道目錄索引搜尋引擎、全文搜尋引擎、元搜尋引擎有那那些優缺點,盡量詳細壹點。給錢哦!急用
■ 全文搜尋引擎
全文搜尋引擎是名副其實的搜尋引擎,國外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,國內著名的有百度(Baidu)。它們都是通過從網際網路上提取的各個網站的資訊(以網頁文字為主)而建立的資料庫中,檢索與使用者查詢條件匹配的相關記錄,然後按壹定的排列順序將結果返回給使用者,因此他們是真正的搜尋引擎。
從搜尋結果來源的角度,全文搜尋引擎又可細分為兩種,壹種是擁有自己的檢索程式(Indexer),俗稱“蜘蛛”(Spider)程式或“機器人”(Robot)程式,並自建網頁資料庫,搜尋結果直接從自身的資料庫中呼叫,如上面提到的7家引擎;另壹種則是租用其他引擎的資料庫,並按自定的格式排列搜尋結果,如Lycos引擎。
■ 目錄索引
目錄索引雖然有搜尋功能,但在嚴格意義上算不上是真正的搜尋引擎,僅僅是按目錄分類的網站連結列表而已。使用者完全可以不用進行關鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的資訊。目錄索引中最具代表性的莫過於大名鼎鼎的Yahoo雅虎。其他著名的還有Open Directory Project(DMOZ)、LookSmart、About等。國內的搜狐、新浪、網易搜尋也都屬於這壹類。
■ 元搜尋引擎 (META Search Engine)
元搜尋引擎在接受使用者查詢請求時,同時在其他多個引擎上進行搜尋,並將結果返回給使用者。著名的元搜尋引擎有InfoSpace、Dogpile、Vivisimo等(元搜尋引擎列表),中文元搜尋引擎中具代表性的有搜星搜尋引擎。在搜尋結果排列方面,有的直接按來源引擎排列搜尋結果,如Dogpile,有的則按自定的規則將結果重新排列組合,如Vivisimo。
除上述三大類引擎外,還有以下幾種非主流形式:
1、集合式搜尋引擎:如HotBot在2002年底推出的引擎。該引擎類似META搜尋引擎,但區別在於不是同時呼叫多個引擎進行搜尋,而是由使用者從提供的4個引擎當中選擇,因此叫它“集合式”搜尋引擎更確切些。
2、門戶搜尋引擎:如AOL Search、MSN Search等雖然提供搜尋服務,但自身即沒有分類目錄也沒有網頁資料庫,其搜尋結果完全來自其他引擎。
3、免費連結列表(Free For All Links,簡稱FFA):這類網站壹般只簡單地滾動排列連結條目,少部分有簡單的分類目錄,不過規模比起Yahoo等目錄索引來要小得多。
哪些網站采用的是目錄索引類搜尋引擎?都是