pip install requests
r = requests.get(url)
r = requests.get(url, params = none, **kwargs)
request其實只有乙個方法
request 有兩個物件
>>>import request
>>>r = requests.get("")
>>>print(r.status_code)
200>>>type(r)
常用屬性
r.status_code #http請求的返回狀態,200 -- succeed, 404 -- failed
r.text #http相應內容的字串形式, 即 url 對應的頁面內容
r.encoding #從http header中猜測的相應內容編碼方式
r.content #http響應內容的二進位制形式
try
: r = requests.get(url, timeout =30)
r.raise_for_status(
) return r.text
except
:return
''產生異常''
防禦方法
1、審查**
2、robots協議:建議但非約束性
建議任何情況下都應該遵守robots協議,但是類人行為原則上可以不遵守robots協議
import request
url =
""try:
kv =
r = requests.get(url, headers = kv)
r.raise_for_status(
) print
(r.text[
1000
:2000])
except
:print
("爬取失敗"
)
import requests
keyword =
'python'
try:
kv =
r = requests.get(
"/s"
, params = kv)
print
(r.request.url)
r.raise_for_status(
)print
(len
(r.text)
)except
:print
("爬取失敗"
)
360:
wd => q
import requests
import os
url =
"*****"
root =
"d://pics//"
path = root + url.split(
'/')[-
1]try:
ifnot os.path.exists(root)
: os.mkdir(root)
ifnot os.path.exists(path)
: r = requests.get(url)
with
open
(path,
'wb'
)as f:
f.write(r.content)
f.close(
)print
("succeed!"
)else
:print
("already existed!"
)except
:print
("failed!"
)
import requests
url =
""try:
r = requests.get(url +***
.***.
**.***
) r.raise_for_status(
) print
(r.text[
-500:]
)except
:print
("failed!"
)
python網路爬蟲學習筆記
爬取網頁的通用 框架 網路爬蟲的盜亦有道 requests爬取例項 自動爬取html頁面 自動網路請求提交 主要方法 說明requests.request 構造乙個請求 requests.get 獲取html網頁的主要方法,對應於http的get requests.head 獲取html網頁頭資訊的...
Python(學習筆記 網路爬蟲)
這篇呢作為學習筆記吧,應該不是太官方的 那就開始吧,不太正式,就不注重格式了 一 引言 首先我們應該想這麼個問題,學python的目的是什麼,最近我們開了python這門課,有好多同學的學習方法我感覺出了問題,有的同學問我怎麼學,說實在我也不知道,因為我也是新手,c語言也是剛及格,菜雞一枚。但是就我...
Python之網路爬蟲學習筆記
大資料時代資料獲取的方式 1 企業生產的使用者資料 大型網際網路公司有海量使用者,所以他們積累資料有天然的優勢 有資料意識的中小企業,也開始積累資料。2 資料管理諮詢公司 通常這樣的公司有很龐大的資料採集團隊,一般會通過市場調研 問卷調查 固定的樣本檢測和各行各業的公司進行合作 專家對話 資料積累很...