資料探勘學習筆記關於資料的基本概念

屬性：

按照屬性的型別分：

1. 定性的（分類的）

標稱（nominal)\序數（ordinal)

2. 定量的（數值的）

區間（interval）、比率(ratio)

按照屬性值的個數分：

離散的（discrete)

連續的（continuous)

資料質量：

因為存在測量誤差及資料收集錯誤（如遺漏資料物件或遺漏資料屬性，或不當地包含了其他資料物件等錯誤），會出現雜訊或偽像，

所以需要進行資料清理（data cleanning)

##### 資料質量度量

1.精度（同乙個量的）重複測量值之間的接近程度，故常用標準差來度量

2.bias測量值與真實值間的系統誤差

資料預處理：

1. aggregation

2. 抽樣

需要樣本容量  自適應抽樣 漸進抽樣

3. 維歸約（多屬性降低為較少屬性）

主要技術：pca（主成分分析） 、svd（奇異值分解）

特徵子集選擇（降低維度的另一種方法，採用選取特徵的乙個子集）

特徵子集選擇、特徵加權

特徵建立：

特徵提取（由原始資料建立新的特徵集稱作特徵提取）

時間序列型別資料採用傅利葉變換特徵構造

離散化和二元化

變數變換

例如：相似度到[0, 1]區間的變換公式：

s』 = (s-min_s)/(max_s-min_s)

note: max_s和min_s分別是相似度的最大值和最小值

資料物件的相異度：

1. 距離：

乾貨 kaggle 資料探勘比賽經驗分享資料分析，資料清洗，特徵工程，模型訓練和驗證等四個大的模組離散值目標變數的分布離散值某個id上面不平衡變數之間的分布和相關度，發現高相關和共線性的特徵預處理特徵缺失值的處理連續值偏正態分佈用均值代替，保持資料均值長尾分布用中值代替，避免受...

觀點挖掘 1.主要挖掘非結構化的文字，涉及自然語言處理技術 2.網路已經顯著改變人們表達觀點的方式，使用者生成的內容已經成為的一種形式 3.主要研究三方面的觀點挖掘的任務意見分類基於特徵觀點挖掘和摘要比較句子和比較關係挖掘 4.意見分類文件層次上分類，將評價分類到正面，或者負面。當前大多研...

常見的資料融合方法有靜態的融合方法，如加權最小平方等動態的融合方法，如遞迴加權最小平方卡爾曼濾波小波變換的分布式濾波等基於統計的融合方法，如馬爾可夫隨機場最大似然法貝葉斯值等基於資訊理論演算法的方法，如聚集分析自適應神經網路表決邏輯資訊熵基於模糊集理論的聚類方法等。資料清理的...

資料探勘學習筆記 關於資料的基本概念