**如下:
r.raise_for_status()
的功能是判斷返回的狀態碼,如果狀態碼不是200(如404),則丟擲異常
來檢視user-agent屬性。
requests庫寫的**預設user-agent是』python-requests/x.xx.x』(x表示版本號)。如果訪問不成功,可嘗試修改』user-agent』屬性。
方法如下:
1. 先構建乙個字典
ua=
其中」mozilla/5.0」是瀏覽器的普遍標識。
2. 在get方法裡面加乙個引數
r=requests.get(url,headers=ua)
這時就可以模仿瀏覽器訪問了。
完整**:
import requests
url=""
ua=r=requests.get(url)
print r.request
.headers
r=requests.get(url,headers=ua)
print r.request
.headers
結果:
wd="環家偉"
url=url+wd
r=requests.get(url)
print r.text
第一行裡面# coding: utf-8
是宣告編碼的,不寫的話將不能識別中文。
重點是這句,字串拼接一下
url=""
wd="環家偉"
url=url+wd
# coding: utf-8
import requests
url=""
kv=r=requests.get(url,params=kv)
r.encoding="utf-8"
print r.text[:2000]
其中,這個網頁不設定r.encoding是亂碼的,所以設為utf-8
提交搜尋詞的方法也是構建乙個字典鍵值對
kv=
然後通過get方法傳進去
r=requests.get(url,params=kv)
r.text[:2000]
是取字串0-2000的部分
「`tips:可以通過r.request.url來檢視生成的鏈結
Go 爬蟲小例子
爬取指定頁面 func working start,end int 將讀到的資料儲存成乙個檔案 file,err os.create 第 strconv.itoa i 頁 html 迴圈讀取網頁資料 緩衝區 buf make byte,2048 forif err nil err io.eof 累加...
python爬蟲入門 開發環境與小例子
現在來詳細講解 import requests 就是匯入了requests庫,這是乙個爬蟲庫 r requests.get r是乙個response 物件。我們可以從這個物件中獲取所有我們想要的資訊。requests.get函式引數是url,返回值是乙個response 物件。r.encoding ...
python爬蟲 兩個簡單的小例子
import requests url value input search headers param response requests.get url url,params param,headers headers response.encoding utf 8 亂碼 page conten...