對於預料集,可以從這個資料堂拿資料:
其中關於酒店情感資料分析部分:data/shop-page.html?k=%e9%85%92%e5%ba%97%e6%83%85%e6%84%9f
對於酒店情感分析,很重要的一點就是語料庫要好,同時,分詞時需要的有好的情感詞庫,這樣才能得到更好的分詞結果。
在得到好的分詞結果後, 還需要人工的對詞進一步篩選,得到最終的分詞結果(這個過程可能需要經歷幾個反覆迭代的過程),然後才是統計詞頻,建立詞的特徵,進而表徵整個文件的特徵,這裡便可以使用tf-idf提取文件中詞的特徵,同樣可以採用word2vec來提取詞的word embedding,進而表徵整個文件的特徵。為之後的情感分析,語義分析等做好充分的準備。
之前聽了哈工大車萬翔老師的乙個報告,裡面講到了nlp中的關鍵技術,句法分析和語義分析,如下是聽完的感受:
直接了當的講了幾個主要點。nlp無非就是:分詞=>詞性標註=>命名實體標註=>句法分析=>語義分析=>上層的知識抽取,問答系統,這次主要講語法分析和詞法分析,介紹了這方面的發展,感覺這方面水很深,很多人投入,但是效果並不是特別好,準確率相對很低,很多模稜兩可的結果。之前自動化所的老師講關於nlp的內容時,一再強調nlp中的關鍵技術,對於句法分析和語義分析是十分關鍵的部分,這兩個模組做得怎麼樣,直接關係到後面高階的處理能否得到好的應用結果。
python酒店評論分析 酒店輿情分析
第一步 分析設計 第二步 資料收集 酒店資料 第三步 資料處理 資料清洗 在統計分析裡面至少150條以上的資料 特徵工程 import pandas as pd data pd.read sql sql,conn 去除標籤列所對應的缺失值,可以使用花式索引的方式,對於資料進行相應的清洗和替換 2 開...
Python 情感分析
今天修改了情感分析的程式發現之前有一些不足。這個最簡單的實現乙個string情感分析的小函式,載入了積極詞典,消極詞典,程度詞典,以及一些反轉詞等的詞典。這裡我沒有做符號的分析和判斷,因為的東西暫時用不到,需要的童鞋可以自己新增。import jieba import cpickle as pick...
分類 情感分析
此課程是coursera 華盛頓大學開設的machine learning 專項的第一部分內容,僅做筆記 學習使用。通過使用者對amazon 產品的評價,通過對評價文字進行分詞,建立分類器分辨使用者評價屬於好評還是差評 不涉及中評 使用第三方庫為graphlab create。對於句子進行分詞,將帶...