爬蟲 解析內容 xpath

2021-09-02 17:39:07 字數 930 閱讀 4174

from lxml import etree

text = """

harry potter

29.99

learning xml

39.95

"""print(type(text))

#將字串轉化為element物件

html = etree.html(text)

print(html)

print(type(html))

#將element物件轉化為二進位制

text2=etree.tostring(html)

print(text2)

print(type(text2))

先將html/xml的字串型別轉換為element物件,因為xpath使用的在element物件上。

將element物件轉化為二進位制

路徑表示式

結果bookstore

選擇bookstore元素。

/bookstore

選取根元素 bookstore。注釋:假如路徑起始於正斜槓( / ),則此路徑始終代表到某元素的絕對路徑!

bookstore/book

選取屬於 bookstore 的子元素的所有 book 元素。

//book

選取所有 book 子元素,而不管它們在文件中的位置。

bookstore//book

選擇屬於 bookstore 元素的後代的所有 book 元素,而不管它們位於 bookstore 之下的什麼位置。

//book/title/@lang

選擇所有的book下面的title中的lang屬性的值。

//book/title/text()

選擇所有的book下面的title的文字。

text()獲取內容

@屬性 獲取屬性值

python爬蟲 xpath解析語法

xpath 是一門在xml或者html文件中導航查詢資訊的語法,對html有很好的支援 xpath 是乙個w3c的標準 xpath 包含標準庫 2.1節點擊擇 表示式 nodename nodename 選取此節點的所有子節點 從根節點擊取 div 選取所有div子元素,而不考慮他們的位置 選取當前...

爬蟲之xpath解析庫

xpath語法 1.常用規則 1.nodename 節點名定位 2.從當前節點擊取子孫節點 3.從當前節點擊取直接子節點 4.nodename attribute 根據屬性定位標籤 div class ui main 5.attributename 獲取屬性 6.text 獲取文字 2.屬性匹配兩種...

Python爬蟲之Xpath解析

例項化乙個etree物件,且需要將被解析的頁面的原始碼資料載入到該物件中 呼叫etree物件中的xpath方法結合著xpath表示式實現標籤的定位和內容的捕獲 pip install lxmlfrom lxml import etree1 將本地的html檔案中的原始碼載入到etree物件中 etr...