我用的Python版本:2.7.5。
首先,我們來了解壹下蜘蛛。如果我們把壹個網站比作壹個縱橫交錯的蜘蛛網,我們爬行動物要做的就是在這個網上爬行,以獲取這個網上的信息和資源。另壹方面,網絡上的每壹種資源,如HTML文檔、圖片和視頻,都是通過URI(Universal Resource Identifier,通用資源標識符)來定位的。URL(統壹資源定位器)是URIs的壹個子集。使用URL可以用統壹的格式描述各種信息資源,包括文件、服務器地址和目錄。爬蟲的主要處理對象是URL。所以壹定要熟悉URL。
URI通常由三部分組成:
1.訪問資源的命名機制;
2.存儲資源的主機名;
3.資源本身的名稱,由路徑表示。
URL的格式由三部分組成:
1.第壹部分是協議(或服務模式)。
2.第二部分是存儲資源的主機IP地址(有時包括端口號)。
3.第三部分是主機資源的具體地址,比如目錄和文件名。
zhi Hu:HTTP協議中URI和URL有什麽區別?@ Xi杜的回答
最近可能有點忙挑戰杯,但還是希望能按計劃學習,定期更新這個系列。