隨著電子商務的快速發展,越來越多的人通過電商**來了解產品資訊、購買商品並通過評價表達自己購買商品過程的感受、對購買商品的滿意程度和對所購買商品的建議和要求等。電商**商品評價輿情是客戶了解商品和店家服務的一種重要渠道和表達方式。
#讀取資料
>if(!require("readxl"))
>if(!require("jiebar"))
>if(!require("wordcloud2"));
> data=read_excel(file.choose())
> data=as.data.frame(data)
#構建分詞詞庫和停用詞詞庫
> root
> root
[1] "c:/users/administrator/desktop/"
>wk=worker(user=paste(root,"userwords.txt",sep=""),stop_word=paste(root,"stopch.txt",sep=""))
> myfc
#詞頻計算
> wordsnum
#提取關鍵字
> keys =worker("keywords",topn=9)
> vector_keywords(myfc,keys)
2435.67 1635.91 1159 1065.58 929.026 847.756 757.879 752.211 637.75
"新鮮" "好吃" "味道" "很甜" "個頭" "送貨" "包裝" "快遞" "口感"
#雲標籤
分析:從雲標籤中由詞的大小可以明顯的看出評價詞出現的次數,對於京東智利進口的車厘子這一產品的評價,分為正負兩種。由雲標籤看出新鮮、好吃,很甜等正面評價。由於負面評價較為少在雲標籤中沒有顯示,頻率不夠。總體來說對於京東這一進口產品,大部分人的態度都是比較喜歡的。
#用文字列表變數構建語料庫。
> mymatrix
將語料庫轉換成詞項-文件稀疏矩陣。該矩陣的列對應語料庫中所有的文件,矩陣的行對應所有文件中抽取的詞項,矩陣中[i,j]位置的元素代表詞項i在文件j中出現的次數。
>demodtm
將詞項-文件矩陣轉換為普通矩陣,接下來將使用這個矩陣選擇聚類演算法進行聚類分析。
> demomatrix
這裡使用k=29進行進行聚類分析,並將聚類結果儲存在demokmeansres.csv中。
> mykmeans
> demokmeansres
#檢視第一組資料
#檢視第二組資料
#檢視第三組資料
情感分析之 電商產品評論資料
資料預處理由3個部分組成 文字去重 機械壓縮去詞 短句刪除。coding utf 8 import pandas as pd inputfile r e 情感分析 data meidi jd.txt outputfile r e 情感分析 data meidi jd process 1.txt da...
「電商評論觀點挖掘」 比賽總結
一 序列標註部分 序列標註思路 採用的bio 資料標註模式 基於bert 或 bi lstm crf 進行 模型訓練 和 任務 生成後的結果合併 到 picklabel test.txt 二 觀點 屬性 分類 模型 1.利用 標註處理工具,將提取結果 格式化 2.根據 提取結果 在原文本中進行抽取 ...
跨境和農村電商成熱點
1月22日,我國網際網路絡中心 cnnic 發布了第37次 我國網際網路絡展開情況計算陳述 以下稱 陳述 陳述指出,到 2015 年 12 月,我國網民規劃達 6.88 億,全年合計新增網民 3951 萬人。網際網路普及率為 50.3 較 2014 年末進步了 2.4 個百分點。手機上網佔九成,網民...