大家可以理解為壹只蜘蛛在互聯網上爬行,互聯網就像壹張大網。爬行動物是在這張網周圍爬行的蜘蛛。如果它遇到獵物(它需要的資源),就會去搶。
爬蟲獲取各種食物的熱量和各種美食的食材。壹旦它們掌握了爬行動物,就可以建立自己的數據庫,然後編寫程序篩選出符合自己熱量需求的食物,再用隨機函數生成菜單供它們選擇。
爬蟲可以抓取壹個網站或者壹個應用的內容,批量提取有用的價值。比如他們想在知乎上抓取某個問題的所有好評答案保存到本地,或者從多家航空機票網站收集航班價格信息進行比價,分析各種論壇、股吧、微博、微信官方賬號的輿情,爬出四級高頻詞。
爬行動物成分:
網絡爬蟲系統的功能是下載網絡數據,為搜索引擎系統提供數據源。許多大型網絡搜索引擎系統都是基於網絡數據收集的搜索引擎系統,可見網絡爬蟲在搜索引擎中的重要性。
在網絡爬蟲的系統框架中,主進程由三部分組成:控制器、解析器和資源庫。控制器的主要工作是在多線程中給每個爬蟲線程分配工作任務;解析器的主要工作是下載和處理網頁,包括JS腳本標簽、CSS代碼內容、空格字符、HTML標簽等等。