首先開啟京東的頁面,輸入你想要查詢的某項商品的名稱,這裡用貝因美的某一款奶粉舉例
1.首先我們右擊選擇檢視網頁源**。
3.利用params引數構建**
我們可以發現
callback=fetchjson_comment98vv75454&productid=1601354&score=0&sorttype=5&page=0&pagesize=10&isshadowsku=0&fold=1
這些都是可以新增在後面的引數值。那麼我們現在的任務就是如何獲取網頁的這些引數值。
我們在回到剛剛開啟的開發者選項,在headers下還有其他的內容,我們找到
可以發現這裡包含了我們剛剛所提到的所有屬性值。也就是說,只要我們能獲取這些屬性值,並將它新增到的後面,我們就可以構建**了。
那如何獲取這些屬性值呢?這就又回到了我們之前說的正規表示式模組的內容,正規表示式對文件資訊的檢索和字串的查詢很有用。但是這裡,我們可以簡化一下,並不是每個引數都需要獲取對應的值。這裡簡單說一下每個屬性的意義:
callback
:是網頁響應採用的json格式,這個一般不相同也不會有太大問題,這裡可以預設它的屬性值就是這個。
所以我們利用正規表示式獲取到對應的productid後,構建乙個字典來儲存對應的鍵和值
**如下:
#要訪問網頁所需要的引數值(可以通過f12檢視)
4.將網頁內容轉化成json格式rex=re.compile(r'\w+[(](.*)[)]') #提取出json格式
cont = rex.findall(t)[0]
con = json.loads(cont) #將爬取下來的內容轉化成可以被json解析的字典格式
cout = len(con['comments'])for i in range(cout):
comm_time =
python json 爬京東商品評論
1 我用的是qq瀏覽器,右擊檢查,在network下選擇js,在搜尋框裡輸入productpagecomments 如果出不來記得f5重新整理一下 如圖 2 雙擊productpagecomments會得到以下頁面 二 找到想要的東西就要寫 啦 上 coding utf 8 importurllib...
python爬取蘇寧商品評論
注 需要手動將json資料中的干擾資訊去除,還有最後的小括號 在 中通過正則去除干擾資訊 通過對比url發現,不同頁url的規律在於引數total之後的數字。import requests import re import json import jsonpath if name main 手動輸入...
爬取京東某商品評論並存入csv
前言 找到你所要爬取物品的頁面,右鍵檢查,如圖所示 我們需要的就是紅方塊框柱的內容了。最後 我感覺可以直接上 了 import requests import json import csv from lxml import etree comment url for i in range 10 p...