1、 原始資料
2、 資料清洗
由於資料量較小且清洗過程簡單,直接利用excel進行處理。最終得到的negative_txt包含1013條資料,positive_txt包含3198條資料。
二、模型構建
1、 分詞
1.1 讀取停用詞
stopwords={}
def stopword(filename=''):
global stopwords
f=open(filename,'r')
line=f.readline().rstrip()
while line:
stopwords.setdefault(line,0)
line=f.readline().strip()
f.close
stopword(filename="c:/pythonwork/stopwords_en.txt")
1.2 分詞
import nltk
def cleantxt(txt,stopwords):
words_cut=
words_list_cut=[i.lower() for data in words_cut for i in data]
seg_list=[i for i in words_list_cut if i not in stopwords]
seg_list=[i for i in seg_list if i!=u' ']
return(seg_list)
txt_negative=open('c:/pythonwork/negative.txt',encoding='utf-8').read()
txt_positive=open('c:/pythonwork/positive.txt',encoding='utf-8').read()
list_negative=cleantxt(txt_negative,stopwords)
list_positive=cleantxt(txt_positive,stopwords)
2、 lda主題分析
2.1 負面主題分析
from gensim import corpora,models
neg_dict = corpora.dictionary([list_negative]) # 建立詞典,以計算機可以處理的方式(數字)
neg_corpus = [neg_dict.doc2bow([i]) for i in list_negative] # 建立語料庫,bag of word.
num_topics_neg=4
neg_lda = models.ldamodel(neg_corpus,num_topics =num_topics_neg,id2word =neg_dict ) # lda模型訓練
for i in range(num_topics_neg):
print('neg_topic' + str(i))
print(neg_lda.print_topic(i))
2.2 正面主題分析
pos_dict = corpora.dictionary([list_positive]) # 建立詞典,以計算機可以處理的方式(數字)
pos_corpus = [pos_dict.doc2bow([i]) for i in list_positive] # 建立語料庫,bag of word
num_topics_pos=4
pos_lda = models.ldamodel(pos_corpus,num_topics =num_topics_pos,id2word =pos_dict ) # lda模型訓練
for i in range(num_topics_pos):
print('pos_topic' + str(i))
print(pos_lda.print_topic(i))
三 、結果分析
由於4個主題比較相近,故重新聚成乙個主題,得到的結果如下所示,說明該血壓儀的主要缺點確實是讀數不精準。
綜合以上各主題的高頻特徵詞,可以看到,該腕式血壓儀的優勢主要體現在:緊湊型、便於攜帶,讀數準確,讀數快,使用簡單和方便,**合理。相對而言,客戶的主要抱怨點集中在讀數相比於醫生使用的血壓儀不夠準確。
1. 盡可能地提高腕式血壓儀讀數的準確度,這是顧客最主要的關注點,也是對這種商品最大的期望;
2. 在保證讀數準確度的基礎上,做到讀數快,便於攜帶和使用操作簡單,並且**也要合理。
如果商品本身能夠滿足以上要求,輔以恰當的運營手段,在推廣腕式血壓儀時才容易和熱銷的競品進行競爭。
python爬取蘇寧商品評論
注 需要手動將json資料中的干擾資訊去除,還有最後的小括號 在 中通過正則去除干擾資訊 通過對比url發現,不同頁url的規律在於引數total之後的數字。import requests import re import json import jsonpath if name main 手動輸入...
python json 爬京東商品評論
1 我用的是qq瀏覽器,右擊檢查,在network下選擇js,在搜尋框裡輸入productpagecomments 如果出不來記得f5重新整理一下 如圖 2 雙擊productpagecomments會得到以下頁面 二 找到想要的東西就要寫 啦 上 coding utf 8 importurllib...
用Python爬取京東商品評論(2)
首先開啟京東的頁面,輸入你想要查詢的某項商品的名稱,這裡用貝因美的某一款奶粉舉例 1.首先我們右擊選擇檢視網頁源 3.利用params引數構建 我們可以發現 callback fetchjson comment98vv75454 productid 1601354 score 0 sorttype ...