資料預處理由3個部分組成:文字去重、機械壓縮去詞、短句刪除。
#-*- coding: utf-8 -*-
import pandas as pd
inputfile = r'e:\情感分析\data\meidi_jd.txt'
outputfile = r'e:\情感分析\data\meidi_jd_process_1.txt'
data = pd.read_csv(inputfile, encoding = 'utf-8', header = none,sep='\t')
l1 = len(data)
data = pd.dataframe(data[0].unique())
l2 = len(data)
data.to_csv(outputfile, index = false, header = false, encoding = 'utf-8')
3.2.1、機械壓縮去詞
3.2.2、短句刪除
#-*- coding: utf-8 -*-
import pandas as pd
import jieba #匯入結巴分詞
#引數初始化
inputfile1 = 'e:\情感分析\data\meidi_jd_neg.txt'
inputfile2 = 'e:\情感分析\data\meidi_jd_pos.txt'
outputfile1 = 'e:\情感分析\data\meidi_jd_neg_cut.txt'
outputfile2 = 'e:\情感分析\data\meidi_jd_pos_cut.txt'
data1 = pd.read_csv(inputfile1, encoding = 'utf-8', header = none) #讀入資料
data2 = pd.read_csv(inputfile2, encoding = 'utf-8', header = none)
mycut = lambda s: ' '.join(jieba.cut(s)) #自定義簡單的分詞函式
data1.to_csv(outputfile1, index = false, header = false, encoding = 'utf-8') #儲存結果
data2.to_csv(outputfile2, index = false, header = false, encoding = 'utf-8')
1、訓練生成詞向量#-*- coding: utf-8 -*-
import pandas as pd
#引數初始化
negfile = 'e:\情感分析\data/meidi_jd_neg_cut.txt'
posfile = 'e:\情感分析\data\meidi_jd_pos_cut.txt'
stoplist = 'e:\情感分析\data\stoplist.txt'
neg = pd.read_csv(negfile, encoding = 'utf-8', header = none) #讀入資料
pos = pd.read_csv(posfile, encoding = 'utf-8', header = none)
stop = pd.read_csv(stoplist, encoding = 'utf-8', header = none, sep = 'tipdm')
#sep設定分割詞,由於csv預設以半形逗號為分割詞,而該詞恰好在停用詞表中,因此會導致讀取出錯
#所以解決辦法是手動設定乙個不存在的分割詞,如tipdm。
stop = [' ', ''] + list(stop[0]) #pandas自動過濾了空格符,這裡手動新增
from gensim import corpora, models
#負面主題分析
neg_dict = corpora.dictionary(neg[2]) #建立詞典
neg_corpus = [neg_dict.doc2bow(i) for i in neg[2]] #建立語料庫
neg_lda = models.ldamodel(neg_corpus, num_topics = 3, id2word = neg_dict) #lda模型訓練
for i in range(3):
neg_lda.print_topic(i) #輸出每個主題
#正面主題分析
pos_dict = corpora.dictionary(pos[2])
pos_corpus = [pos_dict.doc2bow(i) for i in pos[2]]
pos_lda = models.ldamodel(pos_corpus, num_topics = 3, id2word = pos_dict)
for i in range(3):
neg_lda.print_topic(i) #輸出每個主題
資料去重複 京東商品評論情感分析 文字資料預處理
挺好挺好挺好挺好挺好挺好挺好 把 挺好挺好挺好挺好挺好挺好挺好 縮成 挺好 機械壓縮去詞處理以建立兩個列表存放國際字元為前提,制定出嚴格的壓縮規則,判斷兩個列表中的語料是否重複 連續,首先,放置第乙個列表,再放置第二個列表,按照不同情況依次讀取國際字元,將其放入到第乙個或者第二個列表來,觸發壓縮判斷...
電商顧客評論熱點分析(R 3 5)
隨著電子商務的快速發展,越來越多的人通過電商 來了解產品資訊 購買商品並通過評價表達自己購買商品過程的感受 對購買商品的滿意程度和對所購買商品的建議和要求等。電商 商品評價輿情是客戶了解商品和店家服務的一種重要渠道和表達方式。讀取資料 if require readxl if require jie...
電商大資料分析
運用不同行業中,專門從事行業資料蒐集 整理 分析,並依據資料做出行業研究 評估和 的專業人員。熟悉行業知識 公司業務及流程,最好有自己獨到的見解,若脫離行業認知和公司業務背景,分析結果就沒有太大的使用價值。一方面是搭建資料分析框架的要求,比如確定分析思路就需要用到營銷 管理等理論知識來指導 另一方面...