pyquery無法正確解析xhtml型別網頁

最近發現使用pyquery解析網頁的時候，碰到了無法使用標籤獲取節點的情況，但使用class卻能正常獲取節點。

>>
> html=
''''''
>>
> doc=pq(html)
>>
> doc(
'.xx li')[
]>>
> doc(
'li')[
]

原因就是因為html裡xmlns=""這句引起的，宣告該網頁是xhtml型別，而pyquery預設解析器是xml型別，在pyquery文件裡提到了使用xml解析xhtml時會產生問題，可參考pyquery官方說明。

解決方法也很簡單，在初始化的時候加上parser="html"告訴pyquery使用html規範解析即可：

>>
> doc=pq(html,parser=
"html"
)>>
> doc(
'li')[,,
]>>
> doc(
'.xx li')[,,
]

pyquery解析器總結

python爬蟲之pyquery解析器 pyquery是乙個類似於jquery的解析網頁工具，使用lxml操作xml和html文件，它的語法和jquery很像。和xpath，beautiful soup比起來，pyquery更加靈活，提供增加節點的class資訊，移除某個節點，提取文字資訊等功能。1...

pyquery解析庫提取資料特例

豆瓣top250中提取評價人數 text 9.7 2029026人評價 doc pyquery text doc star span eq 1 text pyquery.eq index 用於同名標籤篩選,index從0開始，1表最後乙個 doc star span last child text ...

python解析庫詳解 PyQuery庫詳解

通過這篇文章為大家介紹崔慶才老師對python爬蟲pyquery庫的講解，包括基本原理及其理論知識點目錄一什麼是pyquery庫？二安裝三 pyquery庫用法詳解一什麼是pyquery庫？強大而靈活的網頁解析庫。如果你覺得正則寫起來太麻煩，如果你覺得beautifulsoup語法太難...

pyquery無法正確解析xhtml型別網頁

pyquery解析器總結

pyquery解析庫提取資料特例

python解析庫詳解 PyQuery庫詳解

相關推薦