Python學習第九天（Scrapy框架）

框架：就是乙個半成品。

作用：提高了專案的開發效率

由5部分組成

1） engine（引擎）：它是資料的指揮官，負責控制其它部分的

2） scheduler(排程器)：負責將engine提供的url排成乙個佇列（去重）

3） spider（爬蟲）：由程式設計師自己寫的**放在spider資料夾中。主要的功能就是http response的解析（提取資料），將提取出來的資料傳遞給引擎。

5） item pipeline(管道)：負責將engine傳遞出來的資料，進行處理（儲存）。

注意在網頁中提取資料主要用的是xpath方法

表示式

描述//

從匹配選擇的當前節點（html中的乙個標籤）選擇文件中的節點，而不考慮他們的位置

篩選列表中的元素（可以對屬性值進行限制）

標籤的名字（nodename）

選擇此節點的所有子節點

.選取當前節點

..選取當前節點的父節點

@選取屬性

xpath中內建的方法

text() 取出元素內的文字資訊

##直接列印response中的資訊（利用response物件獨有的屬性body）
# print(response.body)
## response 是htmlresponse類物件
# print(type(response))
## 利用response類自帶的xpath方法篩選資訊,返回的是selectorlist  
##類，selectorlist內建了乙個方法extract該方法返回的是乙個列表
# infos = response.xpath("//tr[@class='even']/td/a/text()")
## 檢視利用xpath方法篩選出來的資訊的型別
#print(type(infos))
## 利用response類自帶的xpath方法篩選資訊,返回的是selectorlist
##類，selectorlist內建了乙個方法extract該方法返回的是乙個列表
infos = response.xpath("//tr[@class='even']/td/a/text() | //tbody/tr[@class='odd']/td/a/text()").extract()
## 檢視extract方法返回的資料型別以及結果
print(type(infos))
print(infos)

python學習第九天

在下這廂有禮了爬蟲簡單實現 coding utf 8 import urllib def gethtml url page urllib.urlopen url html page.read returnhtml html gethtml print html l urllib 模組提供了讀取we...

python學習第九天

一.檔案的擴充套件模式擴充套件模式配合開啟模式的輔助模式,自己單獨不能使用如和 b 1.先讀後寫 r 2.先寫後讀 r 3.可讀可寫 w 4.可讀可寫 a 在寫入內容時,會強制把游標移動到最後二.read seek tell 三個函式的使用 utf 8編碼格式下預設乙個中文三個位元組乙...

python學習第九天

函式函式 function 對功能或者動作的封裝定義可以幫我們把一段公共的提取出來.函式的書寫格式 def 函式名函式體return 返回值，可在後面加入內容如 return 內容1 內容2 函式的呼叫格式函式名引數引數函式在執行過程中給函式傳遞的資訊形參函式在宣告的時候寫的...

Python學習第九天（Scrapy框架）

python學習 第九天

python學習第九天

python學習第九天

相關推薦

python學習第九天