scrapy是基於python的開源爬蟲框架,使用起來也比較方便。具體的官網檔:
之前以為了解python就可以直接爬**了,原來還要了解html,xml的基本協議,在了解基礎以後,在了解下xpath的基礎上,再使用正規表示式(python下的re包提供支援)提取一定格式的資訊(比如說url),就比較容易處理網頁了。
xpath是scrapy下快速提取特定資訊(如title,head,href等)的乙個介面。
幾個簡單的例子:
/html/head/title: 選擇html文件元素下面的標籤。
/html/head/title/text(): 選擇前面提到的元素下面的文字內容
//td: 選擇所有 元素
//div[@class="mine"]: 選擇所有包含 class="mine" 屬性的div 標籤元素
基本的路徑意義:
表示式描述
nodename
選取此節點的所有子節點。
/從根節點擊取。
//從匹配選擇的當前節點擊擇文件中的節點,而不考慮它們的位置。
.選取當前節點。
..選取當前節點的父節點。
@選取屬性。
具體的使用例項:
比如對 **提取特定的資訊
1)、先在第一層tutorial資料夾下,在cmd中輸入: scrapy shell
2)、現在比如我們需要抓取該網頁的tittle,由於前面的shell命令已經例項化了乙個selector的物件sel, 就輸入 sel.xpath('//title') 獲取了網頁的標題。
3)、比如我們想要知道該網頁下的www.****.com形式的鏈結,可以使用xpath 結合正規表示式re提取資訊,輸入 sel.xpath('//@href').re("www.[0-9a-za-z]+\.com")
部分參考:
正規表示式參考:
scrapy應用xpath語法
如 等等各種型別xpath語法可以用分號做分隔符來區分標籤 但是最需要注意的是標籤的屬性值和標籤下的內容 以及這個部分 下面將對這兩個部分書寫xpath div a text get 首先鎖定要查詢的父標籤 text response.xpath div id search nature rg ul...
scrapy基礎 之 xpath網頁結構
1 什麼是xpath xpath 是一門在 xml 文件中查詢資訊的語言。xml是一種類似於html的傳輸協議 2,節點 xpath 中,有七種型別的節點 元素 屬性 文字 命名空間 處理指令 注釋以及文件 根 節點。例項 harry potter j k.rowling 2005 29.99 解析...
Xpath基本用法
my listr tree findnodes as string ul id brand li a class bd 可以利用正規表示式來過濾。程式設計中經常會用到xml,net framework提供了專門對xml進行處理的dll,裡面提供了很多對xml處理的方法,在這裡簡單介紹一下xpath的...