requests庫的安裝
在命令提示符視窗(cmd)輸入pip install requests安裝requests庫。
安裝成功後,會顯示successfully installed requests -2.13.0
開啟idle,在python shell中輸入**:
>>
>
import requests
>>
> r=requests.get(
"")>>
> r.status_code#如果狀態碼=200,訪問成功,反之,失敗
200>>
> r.encoding=
'utf-8'
#更改編碼
>>
> r.text#顯示抓取的資料
方法
說明requests.request()
構造乙個請求,支撐以下各方法的基礎方法
requests.get()
獲取html網頁的主要方法,對應於http的get
requests.head()
獲取html網頁頭資訊的方法,對應與http的head
requests.post()
向html網頁提交post請求的方法,對應於http的post
requests.put()
向html網頁提交put請求的方法,對應於http的put
requests.patch()
向html網頁提交區域性修改請求,對應於http的patch
requests.delete()
向html網頁提交刪除請求,對應於http的delete
獲取網頁最快的方法:
該流程圖是使用dot語言所寫,在此附上原始碼。
digraph demo
requests.get(url,params=none,**kwargs)
這個語句基本上可爬取網頁上所有資料
url:擬獲取頁面的url鏈結
params:url中的額外引數,字典或位元組流格式,可選
**kwargs:12控制訪問的引數
response物件的屬性屬性
說明r.status_code
http請求的返回狀態,200表示連線成功,(非200)404失敗
r.text
http響應內容的字串形式,即url對應的頁面內容
r.encoding
從http header中猜測的響應內容編碼方式
從內容中分析出的響應內容編碼方式(備選編碼方式)
r.content
http響應內容的二進位制形式
例項
#檢視編碼
>>
> r.encoding
'iso-8859-1'
>>
'utf-8'
>>
> r.encoding=
'utf-8'
>>
> r.text#正常文字顯示
r.encoding Python網路爬蟲
找到url,也就是相當於入口,找到你要爬取的鏈結,獲取整個頁面資料 使用正規表示式,匹配到你想要爬取的內容,這裡使用的主要是正規表示式和一些常用的開源庫 最後一步就是寫入文字以及儲存問題了,如文字檔案 資料庫 coding utf 8 是用來指定檔案編碼為utf 8 from urllib impo...
python網路爬蟲
這篇部落格簡單的實現了乙個網路爬蟲指令碼,所謂網路爬蟲就是從 某乙個頁面 通常是首頁 開始,讀取網頁的內容,找到在網頁中的其它鏈結位址,然後通過這些鏈結位址尋找下乙個網頁,這樣一直迴圈下去,直到把這個 所有的網頁都抓取完為止。下面就是乙個簡單地網路爬蟲程式 note 這個命令的意思是,從爬去尋找關鍵...
python網路爬蟲
前言去掉所有標籤 dr re.compile r re.s dd dr.sub jiner 任意內容 可以匹配多位數字 可以匹配用逗號隔開的數字 可以匹配一位的數字 可以匹配帶小數點的數字 匹配空白符 匹配最後兩位 re.search 0 9 0 9 0 9 s.dd 當然,爬蟲還有乙個很關鍵的就通...