資料探勘學習筆記 3

2021-06-21 01:05:49 字數 647 閱讀 5705

常見的資料融合方法有:靜態的融合方法,如加權最小平方等;動態的融合方法,如遞迴加權最小平方、卡爾曼濾波、小波變換的分布式濾波等;基於統計的融合方法,如馬爾可夫隨機場、最大似然法、貝葉斯值等;基於資訊理論演算法的方法,如聚集分析、自適應神經網路、表決邏輯、資訊熵;基於模糊集理論的聚類方法等。

資料清理的四個環節:處理缺失資料、處理重複資料、處理雜訊資料、處理異常資料。

資料標準化是把區間較大的資料整合到乙個相對較規則的區間中,包含標準差校準化、極籌標準化和極差正規化等:

(1)標準差標準化:將各個記錄值減去記錄值的平均值,再除以記錄值的標準差,即:

其中,為平均值,其表示式為:,設是標準差,有:

經過標準差標準化處理的所有記錄值的平均值為0,標準差為1.

(2)極差標準化:是資料標準化的另外一種常用方式。對記錄值進行極差標準化變換是將各個記錄值減去記錄值的平均值,再除以記錄值的極差,即:

經過極差標準化處理後的觀測值的極差等於1.

(3)極差正規化:可以把所有的觀測值轉化到[0,1]的區間之內。對記錄值進行極差正規化變換是將各個記錄值減去記錄值的極小值,再除以記錄值的極差,即:

經過極差正規化處理後的每個觀測值都在0~1之間。

(4)最小-最大規範化也是一樣的資料標準化轉換,把所有的資料轉化到我們新設定的最小值和最大值的區間內。

web資料探勘(學習筆記) 觀點挖掘

觀點挖掘 1.主要挖掘非結構化的文字,涉及自然語言處理技術 2.網路已經顯著改變人們表達觀點的方式,使用者生成的內容已經成為 的一種形式 3.主要研究三方面的觀點挖掘的任務 意見分類 基於特徵觀點挖掘和摘要 比較句子和比較關係挖掘 4.意見分類 文件層次上分類,將評價分類到正面,或者負面。當前大多研...

資料探勘學習筆記(二)

1 認識資料 1.1 資料物件和屬性型別 資料集由資料物件組成。乙個資料物件代表乙個實體。通常,資料物件用屬性描述。資料物件又稱樣本 例項 資料點或物件。1.1.1 什麼是屬性 屬性 attribute 是乙個資料字段,表示資料物件的乙個特徵。用來描述乙個給定物件的一組屬性稱做屬性向量 或特徵向量 ...

資料探勘學習筆記四

1.星型結構 star schema 將事實表和維表進行連線 join 可以得到資料的值以及對資料的多維描述.2.雪花模型 snowflake schema 由 星型模型 演變來的,某些維表是規範化的,以便減少冗餘.3.星座模型 在星型模型的基礎上,具有多個事實表.4.雪暴模型 在星座模型的基礎上,...