10個python爬蟲入門例項

2021-10-09 22:11:16 字數 3841 閱讀 8190

1.爬取強大的bd頁面,列印頁面資訊

import requests #匯入爬蟲的庫,不然呼叫不了爬蟲的函式

response = requests.get(

"")#生成乙個response物件

print

("狀態碼:"

+str

( response.status_code )

)#列印狀態碼

print

(response.text)

#輸出爬取的資訊

2.常用方法之get方法例項,下面還有傳參例項

# 第二個get方法例項

import requests #先導入爬蟲的庫,不然呼叫不了爬蟲的函式

response = requests.get(

"")#get方法

print

( response.status_code )

#狀態碼

print

( response.text )

3. 常用方法之post方法例項,下面還有傳參例項

'''

'''# 第三個 post方法例項

import requests #先導入爬蟲的庫,不然呼叫不了爬蟲的函式

response = requests.post(

"")#post方法訪問

print

( response.status_code )

#狀態碼

print

( response.text )

4. put方法例項

# 第四個 put方法例項

import requests #先導入爬蟲的庫,不然呼叫不了爬蟲的函式

response = requests.put(

"")# put方法訪問

print

( response.status_code )

#狀態碼

print

( response.text )

5.常用方法之get方法傳參例項(1)

如果需要傳多個引數只需要用&符號連線即可如下

'''

'''# 第五個 get傳參方法例項

import requests #先導入爬蟲的庫,不然呼叫不了爬蟲的函式

response = requests.get(

"?name=hezhi&age=20"

)# get傳參

print

( response.status_code )

#狀態碼

print

( response.text )

6.常用方法之get方法傳參例項(2)

params用字典可以傳多個

# 第六個 get傳參方法例項

import requests #先導入爬蟲的庫,不然呼叫不了爬蟲的函式

data =

response = requests.get(

"", params=data )

# get傳參

print

( response.status_code )

#狀態碼

print

( response.text )

7.常用方法之post方法傳參例項(2) 和上乙個有沒有很像

'''

'''# 第七個 post傳參方法例項

import requests #先導入爬蟲的庫,不然呼叫不了爬蟲的函式

data =

response = requests.post(

"", params=data )

# post傳參

print

( response.status_code )

#狀態碼

print

( response.text )

8.關於繞過反爬機制,以zh爸爸為例

# 第好幾個方法例項

import requests #先導入爬蟲的庫,不然呼叫不了爬蟲的函式

response = requests.get(

"")#第一次訪問知乎,不設定頭部資訊

print

("第一次,不設頭部資訊,狀態碼:"

+response.status_code )

# 沒寫headers,不能正常爬取,狀態碼不是 200

#下面是可以正常爬取的區別,更改了user-agent欄位

headers =

#設定頭部資訊,偽裝瀏覽器

response = requests.get(

"", headers=headers )

#get方法訪問,傳入headers引數,

print

( response.status_code )

# 200!訪問成功的狀態碼

print

( response.text )

9.爬取資訊並儲存到本地,

因為目錄關係,在d盤建立了乙個叫做爬蟲的資料夾,然後儲存資訊

注意檔案儲存時的encoding設定

# 爬取乙個html並儲存

import requests

url =

""response = requests.get( url )

response.encoding =

"utf-8"

#設定接收編碼格式

print

("\nr的型別"

+str

(type

(response)))

print

("\n狀態碼是:"

+str

( response.status_code )

)print

("\n頭部資訊:"

+str

( response.headers )

)print

("\n響應內容:"

)print

( response.text )

#儲存檔案

file

=open

("d:\\爬蟲\\baidu.html"

,"w"

,encoding=

"utf"

)#開啟乙個檔案,w是檔案不存在則新建乙個檔案,這裡不用wb是因為不用儲存成二進位制

file

.write( response.text )

file

.close(

)

10.爬取,儲存到本地

import requests #先導入爬蟲的庫,不然呼叫不了爬蟲的函式

response = requests.get(

"")#get方法的到響應

file

=open

("d:\\爬蟲\\baidu_logo.gif"

,"wb"

)#開啟乙個檔案,wb表示以二進位制格式開啟乙個檔案只用於寫入

file

.write(response.content)

#寫入檔案

file

.close(

)#關閉操作,執行完畢後去你的目錄看一眼有沒有儲存成功

python爬蟲 10 爬蟲例項(6)

coding utf 8 import re import requests import time f open 鬥破蒼穹.txt a def get info url response requests.get url,headers header if response.status code...

爬蟲入門例項七

import urllib.request import urllib.parse import string defget method params url name 美女 name 字典傳參 str params urllib.parse.urlencode d final url url s...

Python爬蟲例項

中國大學排名專案 功能描述 輸出 大學排名資訊的螢幕輸出 排名,大學名稱,總分 技術路線 requests bs4 定向爬蟲 僅對輸入url進行爬取,不擴充套件爬取 程式的結構設計 步驟1 從網路上獲取大學排名網頁內容 步驟2 提取網頁內容中資訊到合適的資料結構 二維列表 步驟3 利用資料結構展示並...