web資料探勘(學習筆記) 觀點挖掘

2021-05-24 11:08:11 字數 1012 閱讀 8548

觀點挖掘

1.主要挖掘非結構化的文字,涉及自然語言處理技術

2.網路已經顯著改變人們表達觀點的方式,使用者生成的內容已經成為**的一種形式

3.主要研究三方面的觀點挖掘的任務:意見分類;基於特徵觀點挖掘和摘要;比較句子和比較關係挖掘

4.意見分類:文件層次上分類,將評價分類到正面,或者負面。當前大多研究是文件層次上的分類。

5.基於特徵的觀點挖掘和摘要:句子層次上分類,對於物件某個具體特徵,將特徵的評價分類到正面,或者負面

6.比較句子和比較關係挖掘:抽取比較句子,然後,抽取比較關係

7.主要研究兩方面觀點挖掘任務:觀點搜尋;觀點欺詐

8.觀點搜尋:關於任何物件的觀點

9.觀點欺詐:推銷自己,詆毀對手的不實資訊

10.意見分類:文件集合每乙個文件,標記為正面評價或者負面評價。和文字主題分類相似,但是關注詞彙不同。主題分類關注主題

詞彙,意見分類關注意見詞彙。可以分為正面,負面,中立三類。

11.意見分類三種方法:基於意見短語分類;文字分類方法分類;基於評分函式分類

12.基於意見短語分類:使用詞性標註自然語言技術。通常使用賓州樹庫詞性標註集。分三部完成,首先,詞性標註,抽取符合預定

模式的短語;其次,算短語的互資訊,即左詞先出現時,右詞緊跟出現的條件概率;最後,統計所有短語的語義傾向的平均值。為

正,就是正面評價,負數就是負面評價。

13.文字分類方法分類:knn,貝葉斯,svm文件分類方法都可以。

14.基於評分函式分類:提出乙個表明次對文件集合傾向性的評分函式。為實驗全面,還需要測試不同資料集,取詞幹,過濾常見詞

,各種分類技術對比,換評分函式,語言學改進等。

15.基於文件分類的優點:體現物件,主題的一般看法

16.基於文件分類的缺點:只能體現大體看法,不能提供對細節特徵方面的傾向;非評審類的但是包含意見的文字不能是不用本方法

挖掘,因為還需要定位意見句子。上面都是基於學習的方法,也有一些人工的方法。比如:隨時間變化的意見生成系統,需要領域

相關的詞典。

資料探勘學習筆記 3

常見的資料融合方法有 靜態的融合方法,如加權最小平方等 動態的融合方法,如遞迴加權最小平方 卡爾曼濾波 小波變換的分布式濾波等 基於統計的融合方法,如馬爾可夫隨機場 最大似然法 貝葉斯值等 基於資訊理論演算法的方法,如聚集分析 自適應神經網路 表決邏輯 資訊熵 基於模糊集理論的聚類方法等。資料清理的...

資料探勘學習筆記(二)

1 認識資料 1.1 資料物件和屬性型別 資料集由資料物件組成。乙個資料物件代表乙個實體。通常,資料物件用屬性描述。資料物件又稱樣本 例項 資料點或物件。1.1.1 什麼是屬性 屬性 attribute 是乙個資料字段,表示資料物件的乙個特徵。用來描述乙個給定物件的一組屬性稱做屬性向量 或特徵向量 ...

資料探勘學習筆記四

1.星型結構 star schema 將事實表和維表進行連線 join 可以得到資料的值以及對資料的多維描述.2.雪花模型 snowflake schema 由 星型模型 演變來的,某些維表是規範化的,以便減少冗餘.3.星座模型 在星型模型的基礎上,具有多個事實表.4.雪暴模型 在星座模型的基礎上,...