當前位置:吉日网官网 - 傳統節日 - 請問什麽是網絡爬蟲?這是為了什麽?

請問什麽是網絡爬蟲?這是為了什麽?

爬蟲是壹種程序或腳本,可以自動訪問互聯網並下載網站內容。它類似於壹個機器人,可以在自己的電腦上獲取別人網站的信息,然後做壹些過濾、篩選、歸納、排序等等。

網絡爬蟲能做什麽:數據收集。

網絡爬蟲是壹個自動提取網頁的程序。它從萬維網上為搜索引擎下載網頁,是搜索引擎的重要組成部分。傳統的爬蟲從壹個或幾個初始網頁的URL開始,獲取初始網頁上的URL。在爬取網頁的過程中,它不斷地從當前頁面中提取新的URL並放入隊列中,直到滿足系統的某些停止條件。

擴展數據:

根據系統結構和實現技術,網絡爬蟲大致可以分為以下幾種類型:通用網絡爬蟲、聚焦網絡爬蟲、增量網絡爬蟲和深度網絡爬蟲。實際的網絡爬蟲系統通常是由幾種爬蟲技術結合起來實現的。。

通用網絡爬蟲

通用網絡爬蟲也稱為可擴展網絡爬蟲。爬行對象從壹些種子URL擴展到整個web,主要為門戶搜索引擎和大型Web服務提供商收集數據。由於商業原因,他們的技術細節很少公開。這類網絡爬蟲的爬行範圍和數量巨大,對爬行速度和存儲空間要求較高,但對爬行頁面的順序要求相對較低。同時,由於需要刷新的頁面太多,壹般都是並行工作,但是刷新頁面需要很長時間。雖然存在壹些缺陷,但通用網絡爬蟲適合搜索引擎搜索廣泛的主題,具有很強的應用價值。

壹般網絡爬蟲的結構大致可以分為幾個部分:頁面抓取模塊、頁面分析模塊、鏈接過濾模塊、頁面數據庫、URL隊列和初始URL集合。為了提高工作效率,壹般網絡爬蟲會采用壹定的爬行策略。常用的爬行策略有:深度優先策略和廣度優先策略。

1)深度優先策略:基本方法是按照深度從低到高的順序訪問下壹級網頁鏈接,直到妳無法再深入。完成壹個爬行分支後,爬行器返回到前壹個鏈接節點,進壹步搜索其他鏈接。當遍歷完所有鏈接後,爬行任務就結束了。這種策略更適合垂直搜索或者站內搜索,但是在抓取深度頁面內容的站點時會造成巨大的資源浪費。

2)廣度優先策略:該策略根據網頁內容目錄級別的深度抓取頁面,淺目錄級別的頁面優先抓取。當同級別的頁面爬完之後,爬蟲會深入到下壹級繼續爬。該策略可以有效控制頁面的爬行深度,避免遇到無限深的分支時爬行無法結束的問題,實現方便,無需存儲大量中間節點。缺點是要花很長時間才能爬行到目錄級別較深的頁面。

聚焦網絡爬蟲

聚焦爬蟲,也稱為主題爬蟲,指的是選擇性地爬行與預定義主題相關的頁面的網絡爬蟲。與壹般的網絡爬蟲相比,聚焦爬蟲只需要抓取與主題相關的頁面,大大節省了硬件和網絡資源,而且保存的頁面因為數量少可以快速更新,還可以滿足壹些特定人群對特定領域信息的需求?。

與壹般網絡爬蟲相比,聚焦網絡爬蟲增加了鏈接評價模塊和內容評價模塊。實現聚焦爬蟲爬行策略的關鍵是評估頁面內容和鏈接的重要性。不同的方法計算的重要性不同,導致鏈接的訪問順序不同。

增量網絡爬蟲

增量式網絡爬蟲是指對下載的網頁進行增量更新,只抓取新的或變化的網頁的爬蟲,可以在壹定程度上保證抓取的網頁盡可能的新。與周期性抓取和刷新頁面的網絡爬蟲相比,增量爬蟲只在必要時抓取新生成或更新的頁面,不重新下載未改變的頁面,可以有效減少數據下載,及時更新抓取的頁面,減少時間和空間消耗,但增加了抓取算法的復雜度和實現難度。增量式網絡爬蟲的架構【包括爬取模塊、排名模塊、更新模塊、本地頁面集合、要爬取的URL集合和本地頁面URL集合?。

增量爬蟲有兩個目標:保持存儲在本地頁面集中的頁面更新和提高本地頁面集中頁面的質量。為了實現第壹個目標,增量爬蟲需要通過重新訪問頁面來更新本地頁面集中的頁面內容。常見的方法有:1)統壹更新法:爬蟲以相同的頻率訪問所有頁面,不考慮頁面的變化頻率;2)個體更新法:爬蟲根據個體網頁的變化頻率對每個頁面進行重訪;3)基於分類的更新方法:爬蟲根據網頁的變化頻率,將其分為兩類:更新較快的網頁子集和更新較慢的網頁子集,然後訪問這兩類不同頻率的網頁?。

為了實現第二個目標,增量爬蟲需要對網頁的重要性進行排序,常用的策略有:廣度優先策略、PageRank優先策略等。IBM開發的WebFountain是壹個強大的增量式網絡爬蟲。它使用優化模型來控制爬行過程,並且不對頁面變化過程做任何統計假設。而是采用壹種自適應的方法,根據前壹個爬取周期的爬取結果和網頁的實際變化速度來調整頁面更新頻率。北大天網增量爬取系統以爬取國內網頁為目標,將網頁分為變更網頁和新增網頁兩類,分別采用不同的爬取策略。為了緩解維護大量網頁歷史所帶來的性能瓶頸,它根據網頁變化時間的局部規律,直接對短時間內發生多次變化的網頁進行爬取。為了盡快獲得新網頁,它使用索引網頁來跟蹤新網頁。。

深層網絡爬蟲

網頁按存在方式可分為表層網頁和深層網頁。Surface page是指可以被傳統搜索引擎索引的頁面,網頁主要由超鏈接可以到達的靜態頁面組成。Deep Web是大部分內容無法通過靜態鏈接獲取且隱藏在搜索表單後面的網頁,只有用戶提交部分關鍵詞才能獲取。比如那些內容只有在用戶註冊後才可見的頁面,就屬於Deep Web。2000年,Bright Planet指出,Deep Web的可訪問信息容量是Surface Web的幾百倍,是互聯網上規模最大、增長最快的新信息資源。

參考資料:

百度百科-網絡爬蟲

  • 上一篇:我們應該突出這個靈魂,補鈣壯骨,建立堅實的基礎,解決人生價值觀的總開關
  • 下一篇:貝聿銘的建築作品及其內涵
  • copyright 2024吉日网官网