Python網路爬蟲

requests庫的安裝

在命令提示符視窗（cmd）輸入pip install requests安裝requests庫。

安裝成功後，會顯示successfully installed requests -2.13.0

開啟idle，在python shell中輸入**：

>>
>
import requests
>>
> r=requests.get(
"")>>
> r.status_code#如果狀態碼=200，訪問成功，反之，失敗
200>>
> r.encoding=
'utf-8'
#更改編碼
>>
> r.text#顯示抓取的資料

方法

說明requests.request()

構造乙個請求，支撐以下各方法的基礎方法

requests.get()

獲取html網頁的主要方法，對應於http的get

requests.head()

獲取html網頁頭資訊的方法，對應與http的head

requests.post()

向html網頁提交post請求的方法，對應於http的post

requests.put()

向html網頁提交put請求的方法，對應於http的put

requests.patch()

向html網頁提交區域性修改請求，對應於http的patch

requests.delete()

向html網頁提交刪除請求，對應於http的delete

獲取網頁最快的方法：

該流程圖是使用dot語言所寫，在此附上原始碼。

digraph demo

requests.get(url,params=none,**kwargs)

這個語句基本上可爬取網頁上所有資料

url:擬獲取頁面的url鏈結

params:url中的額外引數，字典或位元組流格式，可選

**kwargs:12控制訪問的引數

response物件的屬性屬性

說明r.status_code

http請求的返回狀態，200表示連線成功，（非200）404失敗

r.text

http響應內容的字串形式，即url對應的頁面內容

r.encoding

從http header中猜測的響應內容編碼方式

從內容中分析出的響應內容編碼方式（備選編碼方式）

r.content

http響應內容的二進位制形式

例項

#檢視編碼
>>
> r.encoding
'iso-8859-1'
>>
'utf-8'
>>
> r.encoding=
'utf-8'
>>
> r.text#正常文字顯示

r.encoding

Python網路爬蟲

找到url，也就是相當於入口，找到你要爬取的鏈結，獲取整個頁面資料使用正規表示式，匹配到你想要爬取的內容，這裡使用的主要是正規表示式和一些常用的開源庫最後一步就是寫入文字以及儲存問題了，如文字檔案資料庫 coding utf 8 是用來指定檔案編碼為utf 8 from urllib impo...

python網路爬蟲

這篇部落格簡單的實現了乙個網路爬蟲指令碼，所謂網路爬蟲就是從某乙個頁面通常是首頁開始，讀取網頁的內容，找到在網頁中的其它鏈結位址，然後通過這些鏈結位址尋找下乙個網頁，這樣一直迴圈下去，直到把這個所有的網頁都抓取完為止。下面就是乙個簡單地網路爬蟲程式 note 這個命令的意思是，從爬去尋找關鍵...

python網路爬蟲

前言去掉所有標籤 dr re.compile r re.s dd dr.sub jiner 任意內容可以匹配多位數字可以匹配用逗號隔開的數字可以匹配一位的數字可以匹配帶小數點的數字匹配空白符匹配最後兩位 re.search 0 9 0 9 0 9 s.dd 當然，爬蟲還有乙個很關鍵的就通...

Python網路爬蟲

Python網路爬蟲

python網路爬蟲

python網路爬蟲

相關推薦