import pandas as pd
from textblob import textblob
#進行資料的匯入
test=pd.read_excel(
'爬蟲結果.xls'
)
#檢視資料錢
test.head(
)
text
0these are great but not much better then gen1....
1everyone is posting that there isn』t a differe...
2these airpods are amazing they automatically p...
3my son really wanted airpods but his parents t...
4poor quality microphone. not suitable for a re...
# -1.0 消極,1.0積極
#參考**
deffunction
(x):
testimonial = textblob(x)
testimonial.sentiment
a=testimonial.sentiment.polarity#sentiment.polarity方法會返回0到1的數字,越接近-1說明越消極,接近1越積極
if a<
-0.5
:return
'消極'
elif a>
0.5:
return
'積極'
else
:return
'中立'
#將每一行進行資料處理產生乙個laber
test[
'laber'
]=test.
(lambda x: function(x[
'text'])
,axis=
1)
test.head(
)
text
laber
0these are great but not much better then gen1....中立1
everyone is posting that there isn』t a differe...中立2
these airpods are amazing they automatically p...中立3
my son really wanted airpods but his parents t...中立4
poor quality microphone. not suitable for a re...
中立
#統計每個類出現的次數
test[
'laber'
].value_counts(
)
中立 2496
積極 1044
消極 20
name: laber, dtype: int64
#通過groupy將label進行分組
rawgrp = test.groupby(
'laber'
)chapter = rawgrp.agg(
sum)
# 只有字串列的情況下,sum函式自動轉為合併字串
chapter = chapter[chapter.index !=0]
chapter
deffunction
(a):
return a.lower(
)# 把所有字元中的大寫字母轉換成小寫字母
chapter[
'text'
]= chapter.
(lambda x: function(x[
'text'])
, axis =
1)
chapter
text
laber
中立these are great but not much better then gen1....
消極estuvieron funcionando bien pero la batería no...
積極excellent, pretty useful... easy to use and re...
#中立n=[
]a=['works fine'
,'describe honestly'
,'commonly speed'
,'general speed'
,'general speed'
]#通過count函式進行統計
for i in a:0]
.count(i)
)
n
[3, 0, 0, 0, 0]
#消極n=[
]a=['poor quality'
,'unclearly'
,'rough'
,'slow delivery'
,'over time'
,'wrong address'
,'no reply'
,'impatient'
,'ineffective'
]for i in a:1]
.count(i)
)
n
[0, 0, 0, 0, 0, 0, 0, 0, 0]
#積極n=[
]a=['high grade'
,'high quality'
,'easy to use'
,'quick delivery'
,'good packaging'
,'wrong address'
,'intact'
,'return in time'
,'friendly'
,'effective'
]for i in a:2]
.count(i)
)
n
[0, 2, 20, 2, 1, 0, 0, 0, 2, 1]
中文情感分析語料庫
中文情感分析語料庫 中文情感分析的語料庫非常少,這五個中文語料庫是我在網上的蒐集的。url 資料集2 2012年ccf自然語言處理與中文計算會議 中文微博情感分析測評資料 url 條微博,共約 20000 條微博。資料採用xml格式,已經預先切分好句子。每條句子的所有標註資訊都包含在元素的屬性中。其...
中文情感分析語料庫
原文 中文情感分析的語料庫非常少,這五個中文語料庫是我在網上的蒐集的。url 資料集2 2012年ccf自然語言處理與中文計算會議 中文微博情感分析測評資料 url 條微博,共約 20000 條微博。資料採用xml格式,已經預先切分好句子。每條句子的所有標註資訊都包含在元素的屬性中。其中opinio...
用BRAT進行中文情感分析語料標註
1.背景 情感分析是nlp中的一大分支,無論在學術界還是工業界都有廣泛的研究,在semeval語義分析會議中有單獨的情感分析任務分支,其中最難的乙個任務叫做absa aspect based sentiment analysis,面向方面的情感分析。舉例來說,就是對以下句子,新版本英雄的 很不錯,但...