爬取亞馬遜評論 亞馬遜商品評論分析

2021-10-25 13:10:03 字數 2660 閱讀 3196

1、 原始資料

2、 資料清洗

由於資料量較小且清洗過程簡單,直接利用excel進行處理。最終得到的negative_txt包含1013條資料,positive_txt包含3198條資料。

二、模型構建

1、 分詞

1.1 讀取停用詞

stopwords={}

def stopword(filename=''):

global stopwords

f=open(filename,'r')

line=f.readline().rstrip()

while line:

stopwords.setdefault(line,0)

line=f.readline().strip()

f.close

stopword(filename="c:/pythonwork/stopwords_en.txt")

1.2 分詞

import nltk

def cleantxt(txt,stopwords):

words_cut=

words_list_cut=[i.lower() for data in words_cut for i in data]

seg_list=[i for i in words_list_cut if i not in stopwords]

seg_list=[i for i in seg_list if i!=u' ']

return(seg_list)

txt_negative=open('c:/pythonwork/negative.txt',encoding='utf-8').read()

txt_positive=open('c:/pythonwork/positive.txt',encoding='utf-8').read()

list_negative=cleantxt(txt_negative,stopwords)

list_positive=cleantxt(txt_positive,stopwords)

2、 lda主題分析

2.1 負面主題分析

from gensim import corpora,models

neg_dict = corpora.dictionary([list_negative]) # 建立詞典,以計算機可以處理的方式(數字)

neg_corpus = [neg_dict.doc2bow([i]) for i in list_negative] # 建立語料庫,bag of word.

num_topics_neg=4

neg_lda = models.ldamodel(neg_corpus,num_topics =num_topics_neg,id2word =neg_dict ) # lda模型訓練

for i in range(num_topics_neg):

print('neg_topic' + str(i))

print(neg_lda.print_topic(i))

2.2 正面主題分析

pos_dict = corpora.dictionary([list_positive]) # 建立詞典,以計算機可以處理的方式(數字)

pos_corpus = [pos_dict.doc2bow([i]) for i in list_positive] # 建立語料庫,bag of word

num_topics_pos=4

pos_lda = models.ldamodel(pos_corpus,num_topics =num_topics_pos,id2word =pos_dict ) # lda模型訓練

for i in range(num_topics_pos):

print('pos_topic' + str(i))

print(pos_lda.print_topic(i))

三 、結果分析

由於4個主題比較相近,故重新聚成乙個主題,得到的結果如下所示,說明該血壓儀的主要缺點確實是讀數不精準。

綜合以上各主題的高頻特徵詞,可以看到,該腕式血壓儀的優勢主要體現在:緊湊型、便於攜帶,讀數準確,讀數快,使用簡單和方便,**合理。相對而言,客戶的主要抱怨點集中在讀數相比於醫生使用的血壓儀不夠準確。

1. 盡可能地提高腕式血壓儀讀數的準確度,這是顧客最主要的關注點,也是對這種商品最大的期望;

2. 在保證讀數準確度的基礎上,做到讀數快,便於攜帶和使用操作簡單,並且**也要合理。

如果商品本身能夠滿足以上要求,輔以恰當的運營手段,在推廣腕式血壓儀時才容易和熱銷的競品進行競爭。

python爬取蘇寧商品評論

注 需要手動將json資料中的干擾資訊去除,還有最後的小括號 在 中通過正則去除干擾資訊 通過對比url發現,不同頁url的規律在於引數total之後的數字。import requests import re import json import jsonpath if name main 手動輸入...

python json 爬京東商品評論

1 我用的是qq瀏覽器,右擊檢查,在network下選擇js,在搜尋框裡輸入productpagecomments 如果出不來記得f5重新整理一下 如圖 2 雙擊productpagecomments會得到以下頁面 二 找到想要的東西就要寫 啦 上 coding utf 8 importurllib...

用Python爬取京東商品評論(2)

首先開啟京東的頁面,輸入你想要查詢的某項商品的名稱,這裡用貝因美的某一款奶粉舉例 1.首先我們右擊選擇檢視網頁源 3.利用params引數構建 我們可以發現 callback fetchjson comment98vv75454 productid 1601354 score 0 sorttype ...