前一篇文章中,我們學習了怎麼檢視儲存在網頁中的資訊,但要怎麼把這些資訊從網上抓取下來呢?接下來我們就來解決這個問題。讓我們一起走進requests。
requests是用python語言基於urllib編寫的,採用的是apache2 licensed開源協議的http庫,requests它會比urllib更加方便,requests 是以pep 20的箴言為中心開發的
beautiful is better than ugly.(美麗優於醜陋)
explicit is better than implicit.(直白優於含蓄)
****** is better than complex.(簡單優於複雜)
complex is better than complicated.(複雜優於繁瑣)
readability counts.(可讀性很重要)
對於 requests 所有的貢獻都應牢記這些重要的準則。
requests 的安裝有兩種方式
第一種:pip 安裝
開啟cmd,輸入下列命令
pip install requests
第二種,whl 檔案安裝
pip install 'whl檔案路徑'
推薦使用第一種安裝方式。
在使用requests時候,第一步要做的就是在檔案的頭部到匯入requests庫
import requests
r = requests.get("")
這樣我們就輕易的獲得了網頁的源**。接下來我們可以通過狀態碼來看下是否成功了
print(r.status_code)
可以看到返回的是
200
那麼我們就成功的獲取了網頁的源**
那怎麼檢視獲取到的源**呢?輸入下面的命令就可以了
print(r.text)
import requests
r = requests.get("")
print(r.status_code) //列印狀態碼
if(r.status_code == 200):
print(len(r.text)) //列印長度
print(r.text) //將網頁列印出來
requests 還有其他功能,現階段相對於get 功能來說,用的不是很多,等到後面需要用到的時候再進行詳細介紹,這裡製作簡單介紹。
Python爬蟲 模擬瀏覽器訪問 Requests
有時候爬蟲需要加入請求頭來偽裝成瀏覽器,以便更好的抓取資料.開啟瀏覽器chrome找到user agent進行複製 headers headers get方法新增請求頭 print res.text 執行結果 requests庫不僅有get 方法,還有post 等方法.post 方法用於提交表單來爬...
Python爬蟲系列
部落格 python,爬蟲 由於近來學 lan 業 ai 繁 fa 忙 zuo 快乙個月沒有更新部落格了。這周完成了兩門課的結課考試,現下時間開始變得充裕。準備梳理一下前段時間學習的關於python爬蟲的內容,權當複習鞏固知識。而初次學習時遇到的疑難雜症,那時候的應對策略是抓大放下,在這梳理過程會下...
Python爬蟲系列 開端
網路爬蟲,顧名思義,是從網路上爬取特定資訊的工具。開發環境 乙個完整的爬蟲,一般包含以下四部分或其中幾個部分 主函式spiderurl管理器url manger網頁解析器html parser內容輸出器outputerbeautifulsoup 解析網頁 requests 或 urllib2 獲取網...