1.爬取強大的bd頁面,列印頁面資訊
import requests #匯入爬蟲的庫,不然呼叫不了爬蟲的函式
response = requests.get(
"")#生成乙個response物件
("狀態碼:"
+str
( response.status_code )
)#列印狀態碼
(response.text)
#輸出爬取的資訊
2.常用方法之get方法例項,下面還有傳參例項
# 第二個get方法例項
import requests #先導入爬蟲的庫,不然呼叫不了爬蟲的函式
response = requests.get(
"")#get方法
print
( response.status_code )
#狀態碼
print
( response.text )
3. 常用方法之post方法例項,下面還有傳參例項
'''
'''# 第三個 post方法例項
import requests #先導入爬蟲的庫,不然呼叫不了爬蟲的函式
response = requests.post(
"")#post方法訪問
print
( response.status_code )
#狀態碼
print
( response.text )
4. put方法例項
# 第四個 put方法例項
import requests #先導入爬蟲的庫,不然呼叫不了爬蟲的函式
response = requests.put(
"")# put方法訪問
print
( response.status_code )
#狀態碼
print
( response.text )
5.常用方法之get方法傳參例項(1)
如果需要傳多個引數只需要用&符號連線即可如下
'''
'''# 第五個 get傳參方法例項
import requests #先導入爬蟲的庫,不然呼叫不了爬蟲的函式
response = requests.get(
"?name=hezhi&age=20"
)# get傳參
print
( response.status_code )
#狀態碼
print
( response.text )
6.常用方法之get方法傳參例項(2)
params用字典可以傳多個
# 第六個 get傳參方法例項
import requests #先導入爬蟲的庫,不然呼叫不了爬蟲的函式
data =
response = requests.get(
"", params=data )
# get傳參
print
( response.status_code )
#狀態碼
print
( response.text )
7.常用方法之post方法傳參例項(2) 和上乙個有沒有很像
'''
'''# 第七個 post傳參方法例項
import requests #先導入爬蟲的庫,不然呼叫不了爬蟲的函式
data =
response = requests.post(
"", params=data )
# post傳參
print
( response.status_code )
#狀態碼
print
( response.text )
8.關於繞過反爬機制,以zh爸爸為例
# 第好幾個方法例項
import requests #先導入爬蟲的庫,不然呼叫不了爬蟲的函式
response = requests.get(
"")#第一次訪問知乎,不設定頭部資訊
print
("第一次,不設頭部資訊,狀態碼:"
+response.status_code )
# 沒寫headers,不能正常爬取,狀態碼不是 200
#下面是可以正常爬取的區別,更改了user-agent欄位
headers =
#設定頭部資訊,偽裝瀏覽器
response = requests.get(
"", headers=headers )
#get方法訪問,傳入headers引數,
print
( response.status_code )
# 200!訪問成功的狀態碼
print
( response.text )
9.爬取資訊並儲存到本地,
因為目錄關係,在d盤建立了乙個叫做爬蟲的資料夾,然後儲存資訊
注意檔案儲存時的encoding設定
# 爬取乙個html並儲存
import requests
url =
""response = requests.get( url )
response.encoding =
"utf-8"
#設定接收編碼格式
print
("\nr的型別"
+str
(type
(response)))
print
("\n狀態碼是:"
+str
( response.status_code )
)print
("\n頭部資訊:"
+str
( response.headers )
)print
("\n響應內容:"
)print
( response.text )
#儲存檔案
file
=open
("d:\\爬蟲\\baidu.html"
,"w"
,encoding=
"utf"
)#開啟乙個檔案,w是檔案不存在則新建乙個檔案,這裡不用wb是因為不用儲存成二進位制
file
.write( response.text )
file
.close(
)
10.爬取,儲存到本地
import requests #先導入爬蟲的庫,不然呼叫不了爬蟲的函式
response = requests.get(
"")#get方法的到響應
file
=open
("d:\\爬蟲\\baidu_logo.gif"
,"wb"
)#開啟乙個檔案,wb表示以二進位制格式開啟乙個檔案只用於寫入
file
.write(response.content)
#寫入檔案
file
.close(
)#關閉操作,執行完畢後去你的目錄看一眼有沒有儲存成功
python爬蟲 10 爬蟲例項(6)
coding utf 8 import re import requests import time f open 鬥破蒼穹.txt a def get info url response requests.get url,headers header if response.status code...
爬蟲入門例項七
import urllib.request import urllib.parse import string defget method params url name 美女 name 字典傳參 str params urllib.parse.urlencode d final url url s...
Python爬蟲例項
中國大學排名專案 功能描述 輸出 大學排名資訊的螢幕輸出 排名,大學名稱,總分 技術路線 requests bs4 定向爬蟲 僅對輸入url進行爬取,不擴充套件爬取 程式的結構設計 步驟1 從網路上獲取大學排名網頁內容 步驟2 提取網頁內容中資訊到合適的資料結構 二維列表 步驟3 利用資料結構展示並...