css選擇器:
#container 選擇id為container的元素
.container 選擇所有class包含container的元素
* 選擇所有元素
div a 選取所有div下所有a元素
ul + p 選取ul後面的第乙個p元素
ul ~p 選取與ul相鄰的所有p元素
a:nth-child(2) 選取下面第二個標籤,如果是a的話則選取,不是則不取
a:nth-child(2n) 選取第偶數個a元素
a:nth-child(2n+1) 選取第奇數個a元素
li.multi-chosen > a 選取class為multi-chosen的li的所有a元素
a[title] 選取所有擁有title屬性的a元素
a[href=」 選取所有href屬性為的a元素
a[href*=」www.lagou.com」] 選取所有href屬性值中包含www.lagou.com的a元素
a[href^=」http」] 選取所有href屬性值中以http開頭的a元素
div:not(#content-container) 選取所有id為非content-container 的div
css例項:
response.css('title::text').extract() 輸出標籤title的文字內容
response.css('base::attr(href)').extract() 輸出標籤base的屬性href的內容
response.css('a[href*=image]::attr(href)').extract() 輸出屬性href內容中含有image的標籤a的屬性href的內容
response.css('a[href*=image] img::attr(src)').extract() 輸出屬性href內容中含有image的標籤a下面的標籤img的屬性src的內容
response.xpath('//a[contains(@href, "image")]/text()').re_first(r'name:\s*(.*)') 使用正規表示式:
name: my image 1
輸出: u'my image 1'
網路爬蟲之css選擇器
container 選擇id為container的元素 container 選擇所有class包含container的元素 div not content container 選取所有id為非content container 的div div a 選取所有div下所有a元素 ul p 選取ul後面...
爬蟲相關知識之CSS選擇器
列子 描述.intro 選擇class intro 的所有節點 name 選擇id name 的所有節點 選擇所有節點 p選擇所有p節點 div,p 選擇所有div節點和p節點 div p 選擇div節點內部的所有p節點 div p 選擇父節點為div的所有p節點 div p 選擇緊接在div節點之...
爬蟲 css選擇器 和 xpath選擇器
ret soup.select my p ret soup.select body p 子子孫孫 ret soup.select body p 直接子節點 兒子 ret soup.select body p 0 text 直接子節點 兒子 xpath xpath 是一門在 xml 文件中查詢資訊的語...