上篇文章我們使用了原生urllib3庫進行爬蟲,但我們對爬取到的網頁還需解碼,很不方便,我們這次就使用另乙個叫做requests的庫
使用requests庫的方式
解析網頁
正規表示式的方式解析資料
需求: 我們先訪問目標網頁我們的需求就是爬取出裡面的新聞鏈結
[外鏈轉存失敗(img-dkzxiwdn-1564032774845)(
通過審查元素我們發現新聞鏈結都有一些共性,
[外鏈轉存失敗(img-mq***8bl-1564032774846)(
找到這些共性就好說了,我們先構建正規表示式
(.*?)
關於這個正規表示式簡單的說下
所以在看上面的正規表示式
現在用一些正則工具測下我們的正規表示式
我們通過編寫python程式進行匹配
# @file: coed03.py
# @author: lengwen
# @time: 2019-07-25 10:22
# @desc: 正規表示式的方式解析資料
import requests
# 匯入re正則庫
import re
url =
''resp = requests.get(url)
# 構建正規表示式字串 字串前面的r代表不轉義字串裡的內容
pattern_str = r'(.*?)'
# 轉換為正規表示式
pattern = re.
compile
(pattern_str)
# 查詢所以匹配結果,我們需要匹配的內容在正規表示式中的()中
news_datas = re.findall(pattern, resp.text)
print
(len
(news_datas)
)for data in news_datas:
print
(data)
我們看下結果,一條連線,乙個標題 ,我們想要的結果出來了
[外鏈轉存失敗(img-4vmpympl-1564032774848)(
我們正則方式的解析至此已經完成
python 爬蟲學習二
是一種按照一定的規則,自動地抓取 資訊的程式或者指令碼。爬蟲是通過網頁的鏈結位址來尋找網頁,從 某乙個頁面開始,讀取網頁的內容,找到在網頁中的其它鏈結位址,然後通過這些鏈結位址尋找下乙個網頁,這樣一直迴圈下去,直到把這個 所有的網頁都抓取完為止。基本流程 1 發起請求 通過http庫向目標站點傳送r...
Python 爬蟲學習(二)
這一篇我們來學習如何對多頁的網路進行資訊爬取。在平時網頁瀏覽時不少看見許多網頁是有多頁的,像這樣 當我們不斷換頁時,我們會發現什麼呢?沒錯,看破真相的是乙個外表看似小孩,智慧型卻過於常人的.第三頁 第四頁 第五頁 def get info url,data none wb data requests...
Python網路爬蟲學習(二)
十五.京東商品頁面的爬取 import requests r requests.get r.status code r.encoding r.text 1000 十六.亞馬遜商品頁面的爬取 import requests def main url try kv r requests.get url,...