網路爬蟲 python學習筆記

pip install requests

r = requests.get(url)
r = requests.get(url, params = none, **kwargs)

request其實只有乙個方法

request 有兩個物件

>>>import request
>>>r = requests.get("") 
>>>print(r.status_code)
200>>>type(r)

常用屬性

r.status_code #http請求的返回狀態，200 -- succeed， 404 -- failed r.text #http相應內容的字串形式，即 url 對應的頁面內容 r.encoding #從http header中猜測的相應內容編碼方式

r.content #http響應內容的二進位制形式

try
:	r = requests.get(url, timeout =30)
r.raise_for_status(
)	return r.text
except
:return
''產生異常''

防禦方法

1、審查**

2、robots協議:建議但非約束性

建議任何情況下都應該遵守robots協議，但是類人行為原則上可以不遵守robots協議

import request
url =
""try:
kv =
r = requests.get(url, headers = kv)
r.raise_for_status(
)	print
(r.text[
1000
:2000])
except
:print
("爬取失敗"
)

import requests
keyword =
'python'
try:
kv =
r = requests.get(
"/s"
, params = kv)
print
(r.request.url)
r.raise_for_status(
)print
(len
(r.text)
)except
:print
("爬取失敗"
)

360:

wd => q

import requests
import os
url =
"*****"
root =
"d://pics//"
path = root + url.split(
'/')[-
1]try:
ifnot os.path.exists(root)
:		os.mkdir(root)
ifnot os.path.exists(path)
:		r = requests.get(url)
with
open
(path,
'wb'
)as f:
f.write(r.content)
f.close(
)print
("succeed!"
)else
:print
("already existed!"
)except
:print
("failed!"
)

import requests
url =
""try:
r = requests.get(url +***
.***.
**.***
)	r.raise_for_status(
)	print
(r.text[
-500:]
)except
:print
("failed!"
)

python網路爬蟲學習筆記

爬取網頁的通用框架網路爬蟲的盜亦有道 requests爬取例項自動爬取html頁面自動網路請求提交主要方法說明requests.request 構造乙個請求 requests.get 獲取html網頁的主要方法，對應於http的get requests.head 獲取html網頁頭資訊的...

Python（學習筆記網路爬蟲）

這篇呢作為學習筆記吧，應該不是太官方的那就開始吧，不太正式，就不注重格式了一引言首先我們應該想這麼個問題，學python的目的是什麼，最近我們開了python這門課，有好多同學的學習方法我感覺出了問題，有的同學問我怎麼學，說實在我也不知道，因為我也是新手，c語言也是剛及格，菜雞一枚。但是就我...

Python之網路爬蟲學習筆記

大資料時代資料獲取的方式 1 企業生產的使用者資料大型網際網路公司有海量使用者，所以他們積累資料有天然的優勢有資料意識的中小企業，也開始積累資料。2 資料管理諮詢公司通常這樣的公司有很龐大的資料採集團隊，一般會通過市場調研問卷調查固定的樣本檢測和各行各業的公司進行合作專家對話資料積累很...

網路爬蟲 python學習筆記

python網路爬蟲學習筆記

Python（學習筆記 網路爬蟲）

Python之網路爬蟲學習筆記

相關推薦

Python（學習筆記網路爬蟲）