我們使用python3,主要用到re,requests模組。
一般來說爬蟲的流程是這樣:先看網頁源**,再找到要爬的字段出現的區域,用正規表示式找到這個字段,再列印或者匯出結果。
# -*- coding:utf-8 -*-
import re
import urllib.request
html = response.read().decode('utf-8')
print(html)
因此,得先找到這個網頁填充資料的原始檔。很愉快的點開表頭headers找找它的url:
複製到瀏覽器裡看看:
chrome直接為我們建了格式,發現這與排行榜是一致的。但是只有20個。
datas=
這個1000可以修改,你想抓幾個就填幾個。
接下來就是python實現爬蟲(可以直接使用):
# -*- coding:utf-8 -*-
import re
import requests
datas=
reg_rank=r'"rank":(.*?),"id"'
#找到排名所在的**區域,複製前後內容,把需要爬的內容替換為(.*?)
reg_uv=r'"activenums":(.*?),"trend"'
#活躍outcome_rank= re.findall(reg_rank, html) #利用正則模組找到需要的內容
outcome_uv = re.findall(reg_uv, html)
for i in range(0,len(outcome_rank)): #以排行數量為準
python動態爬蟲 Python動態網頁爬蟲技術
這一講,我將會為大家講解稍微複雜一點的爬蟲,即動態網頁的爬蟲。動態網頁技術介紹 動態網頁爬蟲技術一之api請求法 動態網頁爬蟲技術二之模擬瀏覽器法 google chrome driver安裝 課後作業 關於作者 動態網頁技術介紹 所謂的動態網頁,是指跟靜態網頁相對的一種網頁程式設計技術。靜態網頁,...
動態網頁爬蟲
方式 優點缺點 分析介面 直接可以請求到資料,不需要做任何解析工作,量少,效能高 分析介面比較複雜,特別是一些通過js混淆的介面,容易被發現是爬蟲 selenium 直接模擬瀏覽器的行為,瀏覽器可以請求到的,使用 selenium 也能請求到,比較穩定 量多,效能低 selenium相當於是乙個機械...
動態網頁爬蟲
network 記錄的是從開啟瀏覽器的開發者工具到網頁載入完畢之間的所有請求。如果你在網頁載入完畢後開啟,裡面可能就是空的,我們開著開發者工具重新整理一下網頁即可 爬蟲中常用的請求型別有 all xhr img 和 media,剩下的了解一下即可 常用的請求資訊,比如請求的名稱 狀態碼 型別 資料大...