如何要學習python爬蟲，我需要學習哪些知識

現行環境下，大數據與人工智能的重要依托還是龐大的數據和分析采集，類似於淘寶京東百度騰訊級別的企業能夠通過數據可觀的用戶群體獲取需要的數據，而壹般企業可能就沒有這種通過產品獲取數據的能力和條件，想從事這方面的工作，需掌握以下知識：

1. 學習Python基礎知識並實現基本的爬蟲過程

壹般獲取數據的過程都是按照發送請求-獲得頁面反饋-解析並且存儲數據這三個流程來實現的。這個過程其實就是模擬了壹個人工瀏覽網頁的過程。

Python中爬蟲相關的包很多：urllib、requests、bs4、scrapy、pyspider 等，我們可以按照requests 負責連接網站，返回網頁，Xpath 用於解析網頁，便於抽取數據。

2.了解非結構化數據的存儲

爬蟲抓取的數據結構復雜傳統的結構化數據庫可能並不是特別適合我們使用。我們前期推薦使用MongoDB 就可以。

3. 掌握壹些常用的反爬蟲技巧

使用代理IP池、抓包、驗證碼的OCR處理等處理方式即可以解決大部分網站的反爬蟲策略。

4.了解分布式存儲

分布式這個東西，聽起來很恐怖，但其實就是利用多線程的原理讓多個爬蟲同時工作，需要妳掌握 Scrapy + MongoDB + Redis 這三種工具就可以了。