最近發現使用pyquery解析網頁的時候,碰到了無法使用標籤獲取節點的情況,但使用class卻能正常獲取節點。
>>
> html=
''''''
>>
> doc=pq(html)
>>
> doc(
'.xx li')[
]>>
> doc(
'li')[
]
原因就是因為html裡xmlns=""
這句引起的,宣告該網頁是xhtml型別,而pyquery預設解析器是xml型別,在pyquery文件裡提到了使用xml解析xhtml時會產生問題,可參考pyquery官方說明。
解決方法也很簡單,在初始化的時候加上parser="html"
告訴pyquery使用html規範解析即可:
>>
> doc=pq(html,parser=
"html"
)>>
> doc(
'li')[,,
]>>
> doc(
'.xx li')[,,
]
pyquery解析器總結
python爬蟲之pyquery解析器 pyquery是乙個類似於jquery的解析網頁工具,使用lxml操作xml和html文件,它的語法和jquery很像。和xpath,beautiful soup比起來,pyquery更加靈活,提供增加節點的class資訊,移除某個節點,提取文字資訊等功能。1...
pyquery解析庫提取資料特例
豆瓣top250中提取評價人數 text 9.7 2029026人評價 doc pyquery text doc star span eq 1 text pyquery.eq index 用於同名標籤篩選,index從0開始,1表最後乙個 doc star span last child text ...
python解析庫詳解 PyQuery庫詳解
通過這篇文章為大家介紹崔慶才老師對python爬蟲pyquery庫的講解,包括基本原理及其理論知識點 目錄 一 什麼是pyquery庫?二 安裝 三 pyquery庫用法詳解 一 什麼是pyquery庫?強大而靈活的網頁解析庫。如果你覺得正則寫起來太麻煩,如果你覺得beautifulsoup語法太難...