注:需要手動將json資料中的干擾資訊去除,(還有最後的小括號)。在**中通過正則去除干擾資訊
通過對比url發現,不同頁url的規律在於引數total之後的數字。
import requests
import re
import json
import jsonpath
if __name__ == '__main__':
# 手動輸入要爬取的頁數
pages = int(input('請輸入要爬取的頁數:'))
# 建立for迴圈進行翻頁操作
for i in range(pages):
page = i+1
# 確認目標的url
url_ = f''
# 建立請求頭引數
headers =
# 傳送請求,獲取相應
response = requests.get(url_,headers=headers)
# 通過正則去除多餘的資訊
str_data = re.findall(r'reviewlist\((.*?)\)',response.text)[0]
# 將資料轉換為python 資料
py_data = json.loads(str_data)
id_list = jsonpath.jsonpath(py_data,'$..nickname')
comment_list = jsonpath.jsonpath(py_data,'$.commodityreviews[*].content')
for i in range(len(id_list)):
dict_ = {}
dict_[id_list[i]] = comment_list[i]
json_data = json.dumps(dict_,ensure_ascii=false)+',\n'
f.write(json_data)
爬取了三頁 爬取亞馬遜評論 亞馬遜商品評論分析
1 原始資料 2 資料清洗 由於資料量較小且清洗過程簡單,直接利用excel進行處理。最終得到的negative txt包含1013條資料,positive txt包含3198條資料。二 模型構建 1 分詞 1.1 讀取停用詞 stopwords def stopword filename glob...
用Python爬取京東商品評論(2)
首先開啟京東的頁面,輸入你想要查詢的某項商品的名稱,這裡用貝因美的某一款奶粉舉例 1.首先我們右擊選擇檢視網頁源 3.利用params引數構建 我們可以發現 callback fetchjson comment98vv75454 productid 1601354 score 0 sorttype ...
python json 爬京東商品評論
1 我用的是qq瀏覽器,右擊檢查,在network下選擇js,在搜尋框裡輸入productpagecomments 如果出不來記得f5重新整理一下 如圖 2 雙擊productpagecomments會得到以下頁面 二 找到想要的東西就要寫 啦 上 coding utf 8 importurllib...