python爬蟲的原理:1通過urlopen()來獲取到url頁面, 這個過程可以加**
2這個頁面上都是字串,所以我們而通過字串查詢的方法來獲取到目標字串,用到了正則來匹配目標re.findall(pattern,string)
或者查詢頁面的字串,bs4.beautifulsoup(html)可以將url頁面的標籤提取出來,提公升查詢效率
3.目標字串為**:urlretrieve() 或者寫到excel中
**訪問:
1 url='beautifulsoup 來把所有的標籤都列出來,然後通過標籤的屬性來找出每個標籤下的url'2 iplist=['
121.226.174.246:8080
','210.38.1.142:8080
','210.38.1.143:8080']
3 proxyhandler=urllib.request.proxyhandler()
4 openner=urllib.request.build_opener(proxyhandler)
5 openner.addheaders=[('
user-agent
','mozilla/5.0 (windows nt 6.1; wow64) '6
'')]7
urllib.request.install_opener(openner)
89 response=urllib.request.urlopen(url)
10 html=response.read().decode('
utf-8
')
1 url=""2 html=urllib.request.urlopen(url)
3 bsobj=bs4.beautifulsoup(html) #
beautifulsoup直接定位標籤
4print
(type(bsobj))
5 imglist=bsobj.findall("
img",) #imglist是含有所有標籤型別的元素 img是乙個標籤 src是標籤的屬性
6for img in
imglist:
7print(img["
src"])
1defget_img(html):
2 p=r'
3 imglist=re.findall(p,html)4#
for each in imglist:5#
print(each)
6for each in
imglist:
7 filename=each.split("
/")[-1]
8 urllib.request.urlretrieve(each,filename,none)
python爬蟲總結
import requests import os def getmanypages keyword,pages params for i in range 30,30 pages 30,30 從30開始,到30 pages結束,以30為跳躍 tn resultjson com ipn rj ct ...
Python 爬蟲總結
個人經驗,僅供參考,錯誤之處,敬請諒解 模組 requests,re 使用示例 這是闖關的簡單案例 encoding utf 8 import requests import re url start r requests.get url start number re.findall d r.te...
Python爬蟲總結(一)入門
很多做資料分析的同學會抱怨沒有實際資料,感覺巧婦難為無公尺之炊,而火車頭採集器一類的軟體很難完成一些定製性很強的資料採集任務,這時候就需要自己編寫爬蟲來採集資料了。python是目前做爬蟲比較流行的工具。爬蟲一般通過傳送http https請求,從伺服器獲取資料,進一步解析獲取的資料,最後得到有用的...