二、requests庫簡介
總結z…@1…6.com
**:
隨著網路的迅速發展,全球資訊網成為大量資訊的載體,如何有效地提取並利用這些資訊成為乙個巨大的挑戰。那麼我們如何根據需求獲取我們想要的東西呢?網路爬蟲,是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。很多不太了解爬蟲的朋友也許會感覺這是乙個很高大上的技術,其實它的學習並不是很難,我們只需要學好python下面的 request庫就好,這是乙個專門用於網路爬蟲的比較好的爬蟲庫。下面我就來介紹一下該庫的安裝過程和簡單的測試。
request庫操具有以下特點:
step2:使用如下命令進行安裝:
pip install requests
安裝完成後如下所示,提公升庫安裝成功。
request 的官方**:
"")r.status_code # 檢測狀態碼,200表示訪問成功,否則表示訪問失敗
注意:如果在idle裡面輸入以上**要逐行輸入,否則會出錯誤,建議大家使用pycharm
具體執行結果如下:
可以看到狀態碼返回值為200,這就說明已經訪問成功。
r.encoding =
'utf-8'
# 修改編碼格式為utf-8
r.text # 列印網頁內容
在requests庫中,主要有7個方法,具體如下:
下面是獲取乙個網有最簡單的**,其中的url表示想要獲取的網頁**。
r=requests.get(url)
# 獲取網頁最簡單的**
通過get方法構造乙個向伺服器請求資源的request物件(request大小寫比較敏感,此處為大寫);然後返回乙個包含伺服器資源的response物件。
get方法的完整使用方法如下:
requests.get(url,params=
none
,**kwargs)
params:url中的額外引數,字典或位元組流格式,可選
r.
type
(r)# 檢測訪問型別,下面的返回資訊表示表示這個類為respose類
利用r=requests.get(url)命令返回的r屬於response類,下面是response物件的幾個常用屬性
直接在idle中輸入如下**,在我們不進行編碼之前直接列印,可以看到網頁是亂碼狀態
import rquests
r=requests.get(
"")r.status_code
r.text # 直接列印網頁內容
然後我們使用下面兩行**分別檢視該網頁的編碼格式:
r.encoding # 網頁當前編碼方式
具體返回值如下:
從返回結果可以看到當前編碼格式,在當前編碼格式下,返回頁碼內容是亂碼的,所以我們考慮利用備選編碼格式替換當前編碼格式,然後在進行顯示。
r.encoding =
"utf-8"
r.text
Python網路爬蟲
找到url,也就是相當於入口,找到你要爬取的鏈結,獲取整個頁面資料 使用正規表示式,匹配到你想要爬取的內容,這裡使用的主要是正規表示式和一些常用的開源庫 最後一步就是寫入文字以及儲存問題了,如文字檔案 資料庫 coding utf 8 是用來指定檔案編碼為utf 8 from urllib impo...
python網路爬蟲
這篇部落格簡單的實現了乙個網路爬蟲指令碼,所謂網路爬蟲就是從 某乙個頁面 通常是首頁 開始,讀取網頁的內容,找到在網頁中的其它鏈結位址,然後通過這些鏈結位址尋找下乙個網頁,這樣一直迴圈下去,直到把這個 所有的網頁都抓取完為止。下面就是乙個簡單地網路爬蟲程式 note 這個命令的意思是,從爬去尋找關鍵...
python網路爬蟲
前言去掉所有標籤 dr re.compile r re.s dd dr.sub jiner 任意內容 可以匹配多位數字 可以匹配用逗號隔開的數字 可以匹配一位的數字 可以匹配帶小數點的數字 匹配空白符 匹配最後兩位 re.search 0 9 0 9 0 9 s.dd 當然,爬蟲還有乙個很關鍵的就通...