當前位置:吉日网官网 - 錢幣收藏 - [1]Python爬蟲介紹——知道網址

[1]Python爬蟲介紹——知道網址

系列介紹前段時間,李想介紹了壹些Python的基礎知識,覺得壹些閑置壹直打印的算法問題有點枯燥,於是決定通過學習爬蟲來提高自己的興趣。而且最近確實有些重復性的工作,想用爬蟲簡化壹下工作。我打算邊學習邊寫自己的自學過程。壹方面作為小白可以和其他Python大神交流,壹方面可以監督自己。

我用的Python版本:2.7.5。

首先,我們來了解壹下蜘蛛。如果我們把壹個網站比作壹個縱橫交錯的蜘蛛網,我們爬行動物要做的就是在這個網上爬行,以獲取這個網上的信息和資源。另壹方面,網絡上的每壹種資源,如HTML文檔、圖片和視頻,都是通過URI(Universal Resource Identifier,通用資源標識符)來定位的。URL(統壹資源定位器)是URIs的壹個子集。使用URL可以用統壹的格式描述各種信息資源,包括文件、服務器地址和目錄。爬蟲的主要處理對象是URL。所以壹定要熟悉URL。

URI通常由三部分組成:

1.訪問資源的命名機制;

2.存儲資源的主機名;

3.資源本身的名稱,由路徑表示。

URL的格式由三部分組成:

1.第壹部分是協議(或服務模式)。

2.第二部分是存儲資源的主機IP地址(有時包括端口號)。

3.第三部分是主機資源的具體地址,比如目錄和文件名。

zhi Hu:HTTP協議中URI和URL有什麽區別?@ Xi杜的回答

最近可能有點忙挑戰杯,但還是希望能按計劃學習,定期更新這個系列。

  • 上一篇:絕地求生現有地圖當中,哪個地圖最受歡迎?
  • 下一篇:玉石價格對比表
  • copyright 2024吉日网官网