xpath,全稱xml path language,即xml路徑語言,它是一門在xml文件中查詢資訊的語言。它最初是用來搜尋xml文件的,但是它同樣使用於html文件的搜尋。
所以在做爬蟲時,我們完全可以使用xpath來做相應的資訊抽取。
表 達 式 描 述
nodename選取此節點的所有節點
/ 從當前節點擊取直接子節點
// 從當前節點擊取子孫節點
. 選取當前節點
.. 選取當前節點的父節點
@ 選取屬性
例如://title[@lang="eng"]
這就是乙個規則,它代表選擇所有名稱為title,同時書屬性lang的值為eng的節點。
使用之前,首先要確保安裝好lxml庫,window下命令列下輸入 pip3 install lxml
text = ''''''#
呼叫html進行初始化,構造xpath解析物件
html =etree.html(text)
result =etree.tostring(html)
print(result.decode('
utf8
'))
結果:
這裡我們呼叫tostring()方法輸出修正後的html**(注意最上面的html最後的乙個li節點是沒有閉合的),但是結果是byte型別的。這裡利用decode()方法將其轉成str型別。
解析庫使用
xpath通過標籤 提取資訊 更適用於爬蟲方法一 處理文字from lxml import etree text class carousel indicators mycarousel data slide to 0 class active mycarousel data slide to 1 ...
使用cJSON庫解析JSON
cjson是乙個基於c的json解析庫,這個庫非常簡單,只有cjson.c和cjson.h兩個檔案,支援json的解析和封裝,需要呼叫時,只需要 include cjson.h 就可以使用了,json官方 json json字串 這個json物件只有兩個鍵值對,鍵name對應字串andy,鍵age對...
time庫的使用和解析 time h
這裡用arduino的time庫做示例。首先,幾個容易搞混淆的概念。時間庫內幾乎所有的資料都在以下兩個資料型別之間相互轉換。1.時間型別time t 時間型別time t雖然只是乙個32位無符號整數,但該型別的資料均代表從2000年1月1日0點0分起開始計時的秒數。視情況而定。unix時間是從197...