要爬取的頁面為:
**如下:
import requests
defgethtmltext
(url)
:try
: r = requests.get(url, timeout=30)
r.raise_for_status(
)# 如果狀態不是200,引發httperror異常
print
(r.status_code)
print
(r.encoding)
return r.text
except
:print
('爬取失敗'
)if __name__ ==
"__main__"
: url =
""print
(gethtmltext(url)[:
1000
])
結果為:
200
ascii
需要登入京東,待解決的問題
第一次需要marketplace apis ,需要修改r.request.headers
import requests
defgethtmltext
(url)
:try
: kv =
r = requests.get(url, headers=kv, timeout=30)
# print(r.request.headers)
r.raise_for_status(
)# 如果狀態不是200,引發httperror異常
return r.text
except
:print
('爬取失敗'
)if __name__ ==
"__main__"
: url =
""print
(gethtmltext(url)
)
import requests
defgethtmltext
(url)
:try
: kv =
r = requests.get(url, params=kv, timeout=30)
print
(r.status_code)
r.raise_for_status(
)# 如果狀態不是200,引發httperror異常
return r.text
except
:print
('爬取失敗'
)if __name__ ==
"__main__"
: url =
""print
(len
(gethtmltext(url)
))
這裡的url應該為"或"
這個**請動手敲一下,第一次爬qaq
import requests
import os
defgethtmltext
(url)
:try
: r = requests.get(url, timeout=30)
print
(r.status_code)
r.raise_for_status(
)# 如果狀態不是200,引發httperror異常
return r
except
:print
('爬取失敗'
)if __name__ ==
"__main__"
: url =
""root =
path = root + url.split(
'/')[-
1]# 在root新建3321d6673eb82c94d08e1b80e8344166.jpg
ifnot os.path.exists(root)
: os.mkdir(root)
ifnot os.path.exists(path)
: r = gethtmltext(url)
with
open
(path,
'wb'
)as f:
f.write(r.content)
f.close(
)print
('檔案儲存成功'
)else
:print
('檔案已存在'
)
爬取失敗,可能需要校園網或者需要登陸
mooc第一周網路爬蟲之規則完畢
爬蟲 2初學Python網路爬蟲
2 網路爬蟲的限制 3 robotst協議 4 robots協議的遵守方式 web伺服器預設接收人類訪問,受限於編寫水平和目的,網路爬蟲將會為web伺服器帶來巨大的資源開銷 伺服器上的資料有產權歸屬,網路爬蟲獲取資料後牟利將帶來法律風險 網路爬蟲可能具備突破簡單訪問控制的能力,獲得被保護資料 從而洩...
python3爬蟲實戰(3)
今天心血來潮去爬取了一下招聘 的實時招聘資訊。是 選的條件是北京,實習生,計算機軟體。分析 之後發現還是很容易的,不過過程中出了不少小問題,在這裡分享一下。想要爬取的是類似的表單內容。是在ul的li裡。用beautifulsoup解析之後,tem ul bsoj.find ul 存下整個ul元素。對...
python實戰 網路爬蟲
學習網路爬蟲的目的 1,可以私人定製乙個搜尋引擎,可以深層次的了解搜尋引擎的工作原理。2,大資料時代,要進行資料分析,首先要有資料來源,學習爬蟲,可以讓我們獲取更多的資料。3,從業人員可以可好的利用爬蟲,了解其原理,更加優化你的程式。網路爬蟲的組成 網路爬蟲由控制節點,爬蟲節點,資源庫構成 爬蟲的型...