垂直搜索引擎與普通網頁搜索引擎最大的區別在於它是從網頁信息中提取結構化信息,也就是將網頁的非結構化數據提取為具體的結構化信息數據,就像網頁搜索以網頁為最小單位,基於視覺的網頁分塊分析以網頁分塊為最小單位,垂直搜索以結構化數據為最小單位。然後將這些數據存儲在數據庫中,以供進壹步處理,如重復數據消除、分類等。最後,分詞和索引可以通過搜索滿足用戶的需求。
在整個過程中,數據從非結構化的數據中提取出來成為結構化的數據,經過深度加工後以非結構化和結構化的方式返回給用戶。
垂直搜索引擎有很多應用,如企業數據庫搜索、供求信息搜索引擎、購物搜索、房地產搜索、人才搜索、地圖搜索、mp3搜索、圖片搜索等...幾乎各行各業的各種信息都可以進壹步細化到各種垂直搜索引擎中。
比如會比較好理解。舉個例子,壹個購物搜索引擎的整體流程大致如下:抓取壹個網頁後,提取該網頁的商品信息,提取商品名稱、價格、介紹...甚至將筆記本介紹進壹步細分為“品牌、型號、CPU、內存、硬盤、顯示屏、……”然後對信息進行清洗、復制、分類、分析對比、數據挖掘和挖掘。
垂直搜索引擎壹般需要以下技術。
1.蜘蛛;狀似蜘蛛的物體;星形輪;十字叉;連接柄;十字頭
2.Web結構化信息抽取技術或元數據收集技術。
3.分詞和索引
4.其他信息處理技術
垂直搜索引擎的技術評價要從以下幾點來判斷。
1.綜合性
2.更新
3.準確(性)
4.功能
垂直搜索的準入門檻低,但競爭門檻高。沒有敬業精神和高超技術是不行的。行業門戶有行業優勢,但沒有技術優勢。千萬不要幻想垂直搜索的所有技術都是招幾個人就能搞定的。作為壹個需要持續改進和運營的產品,而不是壹個項目,對技術的掌控程度是垂直搜索成功的重要因素之壹。