主要系統有TRS系統、天宇系統等。
與其他搜索引擎相比,全文搜索引擎的顯著特點是可以將文本中任何有意義的詞作為檢索條目,檢索結果是原始文檔,而不是文檔線索。
隨著計算機行業的發展,基於計算機存儲設備的電子信息越來越多。這些信息大致可以分為兩類:結構化數據和非結構化數據。結構化數據是指企業的財務賬目和生產數據,學生的成績數據等。,而非結構化數據指的是文本數據、圖像和聲音等多媒體數據。據統計,非結構化數據占總信息量的80%以上。對於結構化數據,RDBMS(關系數據庫管理系統)技術是目前最好的管理方式。但是由於RDBMS本身的底層結構,在管理大量的非結構化數據方面有些欠缺,尤其是查詢這些海量非結構化數據的速度較慢。並且通過全文檢索技術,可以高效地管理這些非結構化數據。
全文檢索經過幾年的發展,已經從最初的字符串匹配程序,發展成為能夠綜合管理超大文本、語音、圖像、運動圖像等非結構化數據的大型軟件。由於內涵和外延的深刻變化,全文檢索系統已經成為新壹代管理信息系統的代名詞,衡量全文檢索系統的基本指標也逐漸形成規範。
首先我們關註的是查全率,即進行某壹次檢索時,系統檢索到的相關資料量與系統數據庫中相關資料總量的比值。精度是保證我們找到最有用材料的壹個關鍵,它是系統檢索到的有用材料的數量與檢索到的材料總數的比值。檢索速度或響應時間是提高工作效率的保證,是指從提交檢索主題到找出數據結果所需的時間。最基本的檢索速度應該是“千萬漢字,秒級響應”。還有收錄範圍(被搜索的範圍)、用戶負擔(檢索過程中用戶努力的總和)、輸出形式(輸出信息的表達形式)等指標,也是衡量全文檢索系統質量的因素。
搜索引擎應該是全文檢索技術最重要的應用。目前,搜索引擎的使用已經成為繼收發郵件之後的第二大互聯網應用技術。搜索引擎起源於傳統的信息全文檢索理論,即計算機程序掃描每篇文章中的每壹個詞,建立逐字逐句的文檔,檢索程序根據每壹個搜索詞在每壹篇文章中出現的頻率和概率對包含這些搜索詞的文章進行排序,最後輸出排序後的結果。全文檢索技術是搜索引擎的核心支撐技術。
壹個好的搜索引擎是壹個理想網站的關鍵。許多人在訪問網站時喜歡使用網站檢索。網站檢索應該是分類目錄導航和全文檢索的完美結合,包括以下幾個方面:
分類目錄導航的關鍵是搜索範圍,搜索範圍的限制可以使搜索結果不會太多太過分;
全文檢索對於站點檢索來說是必不可少的,在正常情況下可以幫助人們快速找到想要的網頁。
有時利用分類目錄導航和全文檢索很難定位到想要的信息,需要結合檢索輔助;
必須要有相關的排序功能,因為當搜索結果太多的時候,用戶無法壹壹瀏覽。大部分用戶只瀏覽前幾項,沒有相關的排序。可能精準的搜索結果排在後面,用戶瀏覽不到,但是排在前面的搜索結果相關性不大,造成用戶的錯覺。
另外還要考慮HTML/XML的特殊性,對大量並發用戶突然訪問的支持,網站的動態特性,索引維護的高效性。
目前有Lucene,Solr,ElasticSearch等。全文檢索過程分為兩個過程:索引和搜索:
索引
從關系數據庫、互聯網和文件系統收集源數據(要搜索的目標信息)。源數據的來源非常廣泛。
在壹個統壹的位置收集源數據,例如存儲系統。要創建索引,將索引創建到索引庫(文件系統)中,從源數據庫中提取關鍵信息,並從關鍵信息中提取壹個單詞。單詞與源數據相關。也就是說,當創建索引時,單詞與源數據相關聯,並且這種關聯被記錄在索引數據庫中。如果找到壹個單詞,就意味著源數據(http網頁、電子書、新聞等。)已經找到了。
搜索(搜索)
用戶執行搜索(全文檢索)並編寫查詢關鍵字。
從索引數據庫中搜索索引,根據查詢關鍵字壹個字壹個字地搜索索引數據庫。
顯示搜索結果。