pyquery庫是jquery的python實現,可以用於解析html網頁內容,我個人寫過的一些抓取網頁資料的指令碼就是用它來解析html獲取資料的。
它的官方文件位址是:今天重新看了一遍整個文件,把它的一些使用方法整理了一下,做個記錄。
使用方法
from pyquery import pyquery as pq
1.可載入一段html字串,或乙個html檔案,或是乙個url位址,
例:d=pq("hello
")d=pq(filename=path_to_html_file)
d=pq(url='')注意:此處url似乎必須寫全
2.html()和text() ——獲取相應的html塊或文字塊,
例:p=pq("")
p('head').html()#返回hello
p('head').text()#返回hello
3.根據html標籤來獲取元素,
例:d=pq('test 1
test 2
')d('p')#返回[,
print d('p')#返回test 1
test 2
print d('p').html()#返回test 1
注意:當獲取到的元素不只乙個時,html()、text()方法只返回首個元素的相應內容塊
4.eq(index) ——根據給定的索引號得到指定元素
接上例,若想得到第二個p標籤內的內容,則可以:
print d('p').eq(1).html() #返回test 2
5.filter() ——根據類名、id名得到指定元素,例:
d=pq("test 1
test 2
")d('p').filter('#1') #返回
d('p').filter('.2') #返回
6.find() ——查詢巢狀元素,例:
d=pq("test 1
test 2
")d('div').find('p')#返回[, ]
d('div').find('p').eq(0)#返回
7.直接根據類名、id名獲取元素,例:
d=pq("test 1
test 2
")d('#1').html()#返回test 1
d('.2').html()#返回test 2
8.獲取屬性值,例:
d=pq("hello
")d('a').attr('href')#返回
d('p').attr('id')#返回my_id
9.修改屬性值,例:
d('a').attr('href', '')把href屬性修改為了baidu
10.addclass(value) ——為元素新增類,例:
d=pq('
')d.addclass('my_class')#返回
11.hasclass(name) #返回判斷元素是否包含給定的類,例:
d=pq("
")d.hasclass('my_class')#返回true
12.children(selector=none) ——獲取子元素,例:
d=pq("hello
world
")d.children()#返回[, ]
d.children('#2')#返回
13.parents(selector=none)——獲取父元素,例:
d=pq("hello
world
")d('p').parents()#返回
d('#1').parents('span')#返回
d('#1').parents('p')#返回
14.clone() ——返回乙個節點的拷貝
15.empty() ——移除節點內容
16.nextall(selector=none) ——返回後面全部的元素塊,例:
d=pq("hello
world
")d('p:first').nextall()#返回[,
]d('p:last').nextall()#返回[
]17.not_(selector) ——返回不匹配選擇器的元素,例:
d=pq("test 1
test 2
")d('p').not_('#2')#返回
本文**:
python中PyQuery庫用法分享
pyquery庫就是python中的乙個解析庫。作用十分強大,使用上也是相當的靈活,能夠實現初始化字串 初始化 html 檔案 初始化請求響應等多種場景,另外,本身中的css選擇器,也是經常被大家使用的物件,結合以上的大致內容總結,接下來,我們一起詳細的了解使用內容。安裝 pip3 install ...
利用python中的pyquery庫簡單的抓取資料
記得還是7月份下旬的時候無意看到pyquery庫,能做爬蟲,還不需要寫正則什麼的,還是蠻實用的,簡單的寫了一些 抓取網路資料,裝的是anaconda 預設是2.7版本,如下 from pyquery import pyquery as pq import pandas as pd from date...
Python中PyQuery庫的使用總結
pyquery庫是jquery的python實現,可以用於解析html網頁內容,我個人寫過的一些抓取網頁資料的指令碼就是用它來解析html獲取資料的。他的官方文件位址是 今天重新看了一遍整個文件,把它的一些使用方法整理了一下,做個記錄。使用方法 from pyquery import pyquery...