python爬蟲之解析網頁的工具pyquery

2022-05-08 23:54:21 字數 1078 閱讀 7795

主要是對這篇部落格所做的筆記

有疑惑可以去看這篇文章

from pyquery import pyquery as py

初始化的三種方式

doc = py(html)

doc = py(url="",encoding = 'utf-8')

doc = py(filename = "index.html")

利用css選擇器

content = doc()-->括號中加入相關selector

.class 類名

#id id名

* 全部

element 標籤名

element1,element2 所有含element1和element2標籤名的節點

element1 element2 在element1 中的 elenemt2標籤

[element] 屬性為element

[name = value] name屬性為value的節點

注意:當緊挨著時,表示是並,也就是同時滿足

查詢元素——可以使用css選擇器

對於子元素:children() find() ——可以使用css選擇器

對於父元素:parent() parents()

對於兄弟元素:siblings()

獲取資訊

獲取屬性

pyquery物件.attr(屬性名)

pyquery物件.attr.屬性名

獲取文字

在很多時候我們是需要獲取被html標籤包含的文字資訊,通過.text()就可以獲取文字資訊

獲取html

我們通過.html()的方式可以獲取當前標籤所包含的html資訊

remove

有時候我們獲取文字資訊的時候可能並列的會有一些其他標籤干擾,

這個時候通過remove就可以將無用的或者干擾的標籤直接刪除,從而方便操作

python爬蟲網頁解析之lxml模組

windows系統下的安裝 方法一 pip3 install lxml pip3 install lxml 4.2.1 cp36 cp36m win amd64.whl 檔案所在的路徑 linux下安裝 方法一 pip3 install lxml 方法二 yum install y epel rel...

Python爬蟲解析網頁的4種方式

正規表示式 regular expression 描述了一種字串匹配的模式 pattern 可以用來檢查乙個串是否含有某種子串 將匹配的子串替換或者從某個串中取出符合某個條件的子串等 正則的好處是編寫麻煩,理解不容易,但是匹配效率很高,不過時至今日有太多現成的html內容解析庫之後,我個人不太建議再...

Python爬蟲(三) 網頁解析

所需庫from bs4 import beautifulsoup專案 示例html askurl 獲取頁面html文字 soup beautifulsoup html,html.parser 使用html解析來處理html變數 變數名 item1 soup.find all article 匹配ar...