前文參考:
hoper:r語言自然語言處理:中文分詞
hoper:r語言自然語言處理:詞性標註與命名實體識別
hoper:r語言自然語言處理:詞嵌入(word embedding)
情感分析,就是根據一段文字,分析其表達情感的技術。比較簡單的情感分析,能夠辨別文字內容是積極的還是消極的(褒義/貶義);比較複雜的情感分析,能夠知道這些文字是否流露出恐懼、生氣、狂喜等細緻入微的情感。此外,情感的二元特性還可以表達為是否含有較大的感情波動。也就是說,狂喜和暴怒都屬於感情波動,而寵辱不驚則屬於穩定的情感狀態。
情感分析方法主要分為兩種:1.詞法分析;2.機器學習。
其中,機器學習需要依賴於標註和特徵提取,這裡大有文章可做,但是很難提煉出共性,因此這裡不進行特殊的介紹。主要就是以人工標註的情感數值作為響應變數,然後另一方面對於文字進行向量化處理(詞嵌入),然後用模型進行擬合,最後得到乙個好的模型對新的文字進**感的評估。需要注意的是,對文字進**感特徵的提取也是有文章可以做的,只要能夠正確認識哪些文字能夠提供情感資訊,就能夠更好地捕捉文字的情感方向和程度。
tidytext進行詞法分析的技術路線
1.tidytext(juliasilge/tidytext); 2.sentimentanalysis(sfeuerriegel/sentimentanalysis)。
這些包基本能夠通過複製貼上**就能夠實現對文字情感的分析,這裡不進行贅述。不過這些包都是針對英文的,中文的情感詞典則比較匱乏。經過搜尋,比較好的有大連理工大學提供的情感詞彙本體庫(大連理工大學資訊檢索研究室(dutir)-搜人搜物搜資訊,重情重義重認知)。不過我認為這些中文詞庫還是遠遠無法達到應用級的水準,真的要用,就需要自己構建情感詞庫。經過思考,我擬定的方法如下:1.對需要分析的文字進行分詞,並進行詞頻的分析(tf);2.根據出現最多的一些詞,對它們可能代表的情感進行評估;3.構建自定義情感詞典,匯入分詞器中進行分詞,並通過詞典表對其進**感打分。
只有了解這些文字的特點,才能夠更好地進行分詞並提取出情感資訊。這種分析可以廣泛應用到使用者評價分析、輿情分析,能夠成為乙個非常重要的輔助參考。針對個性化的詞典,還能夠精準評估一些文字是否出現了「特殊的」情感,比如極端情緒或我們特別感興趣的情緒(不滿?特別滿意?威脅恐嚇?)。這種分析還可以擴充套件到句法分析,也就是什麼句型與相應的情緒具有強烈的相關性,未來這個領域大有可期。
編輯於 04-29
R語言自然語言處理 情感分析
歡迎關注天善智慧型,我們是專注於商業智慧型bi,人工智慧ai,大資料分析與挖掘領域的垂直社群,學習,問答 求職一站式搞定!情感分析,就是根據一段文字,分析其表達情感的技術。比較簡單的情感分析,能夠辨別文字內容是積極的還是消極的 褒義 貶義 比較複雜的情感分析,能夠知道這些文字是否流露出恐懼 生氣 狂...
r語言進行自然語言處理 開始進行自然語言處理
r語言進行自然語言處理 當今,大多數應用程式仍在處理來自結構化和半結構化源的資料的世界中工作。它們連線到sql資料庫以查詢資訊或顯示來自json或xml資料來源的資訊。許多應用程式仍避免從非結構化源 例如開放文字字段,富文字編輯器,資料庫clob 字元大物件 資料型別,社交 新聞流以及來自micro...
自然語言處理 樸素貝葉斯 情感分析
from nlpia.data.loaders import get data import pandas as pd from nltk.tokenize import casual tokenize from collections import counter from sklearn.bay...