Nodename選擇此節點的所有子節點。
/從根節點中選擇。
//從當前節點中選擇文檔中與選擇匹配的節點,而不考慮它們的位置。
。選擇當前節點。
..選擇當前節點的父節點。
@選擇壹個屬性。
路由表達式
結果
Bookstore選擇bookstore元素的所有子節點。
/bookstore選擇根元素bookstore。註意:如果路徑以正斜杠(/)開頭,它總是代表壹個元素的絕對路徑!
書店/書籍選擇屬於書店子元素的所有書籍元素。
//book選擇所有book子元素,而不考慮它們在文檔中的位置。
book store//books選擇book元素的所有子元素,無論它們位於書店的哪個位置。
named lang選擇所有名為lang的屬性。
舉個例子
1.查找頁面根元素://
2.查找頁面上的所有輸入元素://input
3.在頁面上的第壹個form元素中找到直接子input元素(即只包含form元素的下壹級input元素,用絕對路徑表示,用單個符號表示)://form[1]/input。
4.找到頁面上第壹個form元素中的所有子input元素(只要計算form元素中的input,不管嵌套了多少個其他tab,都用相對路徑表示,帶雙//號)://form[1]//input。
5.查找頁面上的第壹個表單元素://form[1]
6.在頁面上查找id為loginForm的表單元素://form[@id='loginForm']
7.在頁面上找到name屬性為username的input元素://input[@name='username']。
8.在頁面上找到id為loginForm的form元素下的第壹個input元素://form[@ id = ' log in form ']/input[1]。
9.搜索頁面有壹個input元素,其name屬性為continue,type屬性為button://input[@ name = ' continue '][@ type = ' button ']。
10.在網頁中查找所有id為的元素?/@id
2.修飾節點搜索到的內容。
舉個例子
路由表達式
結果
/bookstore/book[1]選擇屬於bookstore子元素的第壹個book元素。
/bookstore/book[last()]選擇屬於書店子元素的最後壹個book元素。
/bookstore/book[last()-1]選擇屬於book store子元素的倒數第二個book元素。
/bookstore/book[position()]選擇屬於bookstore元素子元素的前兩個book元素。
//title[@lang]選擇所有屬性名為lang的title元素。
//title[@lang='eng']選擇所有的title元素,這些元素都有值為eng的lang屬性。
/書店/書[價格& gt35.00]選擇書店元素的所有圖書元素,價格元素的值必須大於35.00。
/書店/書[價格& gt35.00]/title在book元素中選擇book元素的所有title元素,price元素的值必須大於35.00。
3.選擇未知節點
通配符
形容
*匹配任何元素節點。
@ *匹配任何屬性節點。
Node()匹配任何類型的節點。
舉個例子
路由表達式
結果
/bookstore/*選擇bookstore元素的所有子元素。
//*選擇文檔中的所有元素。
//title[@*]選擇所有帶有屬性的title元素。
4.選擇幾個路徑
通過在路徑表達式中使用|運算符,可以選擇多條路徑。
路由表達式
結果
//book/title | //book/price選擇book元素的所有標題和價格元素。
//title | //price選擇文檔中所有的標題和價格元素。
/bookstore/book/title | //price選擇屬於bookstore元素的book元素的所有title元素和文檔中的所有price元素。
5.關鍵詞
用例
舉個例子
正文()書/作者/正文()
string()圖書/作者/string()
數據()書籍/作者/數據()
。書/作者/。
舉個例子
XML示例
& ltbook & gt& lt作者& gt湯姆& ltem & gt約翰& lt/em & gt;cat & lt/作者& gt& lt定價& gt& lt價格& gt20 & lt/price & gt;& lt折扣& gt0.8 & lt/discount & gt;& lt/pricing & gt;& lt/book & gt;
文本()
您經常在XPath表達式的末尾看到text(),它只返回指定元素的文本內容。
爬取的xpath格式為book/author/text(),爬取的內容為Tom cat,其中John不屬於作者的直接節點內容。
字符串()
string()函數將獲取指定元素的所有節點文本內容,這些內容將被拼接成壹個字符串。
爬取的xpath格式為book/author/string(),爬取的內容都是從湯姆約翰貓作者的頭部到尾部爬取出來的。
數據()
大多數時候,data()函數和string()函數是常用的,不建議頻繁使用data()函數。據統計,這個函數會影響XPath的性能。
爬取的xpath格式是book/pricing/data(),爬取的內容返回分開的20和0.8。它們的類型不是字符串,而是xs:anyAtomicType,因此可以使用數學函數來執行某些操作。
爬取所有數字時只能使用data(),不能使用text()或string(),因為XPath不支持字符串進行數學運算。
作者:小鹹魚YYY
資料來源:blogs.com/pythonywy/p/11082153.html.
關於作者:路再長,也是壹步壹步走出來的,路再短,也是不邁開腳走不到的。
本作品署名-非商業使用-無4.0國際版解讀?許可,請註明作者和出處。
分類:?爬行動物擅長寫字?關註我收藏此文,小鹹魚YwY
關註點-4
粉絲-302+加關註00上壹篇:?描述符\獲取/設置/刪除,初始化/新建/調用,元類
接下來:?網絡框架,互聯網組成,OSI七層協議,抽象層貼@麽?小鹹魚YYY?讀書(1584)?註釋(3)編輯收藏
評論列表#1樓2019-06-25 13:26?感謝大家的支持(0)?異議(0)#2樓2019-06-25 13:36?驚艷2感謝支持(0)?反對(0)# 3樓【樓主】?2019-06-25 14:07?小鹹魚YwY@驚艷二座
不客氣支持(0)?異議(0)刷新評論刷新頁面,返回置頂註冊用戶登錄後再發表評論。拜托了。登錄?還是?註冊?參觀?網站主頁。建議多了解妳。博客園發起問卷調查,幫助社區升級。
推薦50萬行以上的VC++源代碼:大型組態工業控制,電力仿真CAD,GIS源代碼庫。
推薦開放下載!OSS操作和維護基本實用手冊
個人信息
構建程序的過程本質上就是調試規範的過程——點擊查看博主生活照。568972484
微信:?YwYbetheone
個人博客:?楊先生的博客
個人音樂網站:?愛琴海音樂
收音機:?精通python爬蟲每天兩分鐘。小小鹹魚YwY
花園時代:?1年零2個月
粉絲:?302
關註:?4+註意
& lt2020年7月>
太陽
壹個
二
三
四
五
六
28 29 30 1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31 1
2 3 4 5 6 7 8
我的標簽
Drf框架(15)
Vue-CLI(13)
電子商務相關抓取(6)
論壇(6)
掛鉤框架弗裏達(5)
龍卷風(4)
附錄(3)
Java(3)
Git詳細操作(3)
定時任務和異步任務(3)
更多
積分和排名
整數-190814
排名-2915
作文分類?(572)
姜戈(61)
燒瓶(16)
github(9)
去(17)
jupyter筆記本(1)
linux(20)
Python學習日記(116)
外殼(1)
泰波拉(2)
vs(1)
Vs自學日記(7)
Vue(26)
並發編程(8)
博客花園(10)
個人博客建設(6)
強制按鈕題庫(22)
爬行動物(127)
該前端(50)
數據庫(22)
微信小程序(11)
小程序(22)
異常(17)
論文檔案?(494)
2020年7月(8)
2020年6月(14)
2020年5月(4)
2020年4月(9)
2020年3月(10)
2020年2月(5)
65438+2020年十月(10)
2019 12 (13)
2019 165438+十月(49)
2019 10 (78)
2065438+2009年9月(76)
2065438+2009年8月(74)
2065438+2009年7月(48)
2065438+2009年6月(41)
2065438+2009年5月(48)
四月2019 (7)
最新評論
1.回復:博客花園美化小火箭
謝謝妳
彼得威廉
2.回復:前端實現文件下載的所有方式。
酷斃了。。。。。。。。。。。。。。。。。。。。。。。。。。。。
-小寶桃
3.關於:DRF框架中的jwt認證和自定義jwt認證。
@嗨,阿良看過視頻了。...
-小鹹魚YYY
4.關於:DRF框架中的jwt認證和自定義jwt認證。
看哥哥的博客應該也是老男孩的哥哥。這篇文章真的很詳細
嗨,阿良。
5.回復:爬行動物
@小在龍...
-小鹹魚YYY
6.回復:爬行動物整理
老板,我研究極限驗證碼的破解方法已經有壹段時間了,但是滑塊總是跑偏,解決了。
-小在龍
7.回復:python日記整理
@十七指數謝謝...
-小鹹魚YYY
8.回復:python日記整理
強烈的
-十七指數
9.Re:GO語言介紹和開發環境配置
我研究過妳,也關註過妳。
-十七指數
10.re:用於Python crawler網頁解析的parsel模塊
我的名字是劉小華。密碼是什麽?...
-小鹹魚YYY
閱讀排行榜
1.python爬蟲(抓取圖片)(16036)
2.python爬蟲(抓取視頻)(13072)
3.python-爬蟲學習目錄(4164)
4.django根據現有的數據庫表生成模型類(3446)
5.巨蟒日記整理(3222)
6.Python crawler網頁解析的parsel模塊(3084)
7.JS中的滾動滾動關聯(2906)
8.熊貓模塊(詳細分類),pd.concat(後續補充)(2884)
9.Scrapy (2799)中的響應屬性和內容提取
10.Python3安裝使用urllib2包的小坑(1933)
版權?2020小小鹹魚YYY
動力來自。Kubernetes上的NET Core