屬性:
按照屬性的型別分:
1. 定性的(分類的)
標稱(nominal)\序數(ordinal)
2. 定量的(數值的)
區間(interval)、比率(ratio)
按照屬性值的個數分:
離散的(discrete)
連續的(continuous)
資料質量:
因為存在測量誤差及資料收集錯誤(如遺漏資料物件或遺漏資料屬性,或不當地包含了其他資料物件等錯誤),會出現雜訊或偽像,
所以需要進行資料清理(data cleanning)
##### 資料質量度量
1.精度(同乙個量的)重複測量值之間的接近程度,故常用標準差來度量
2.bias測量值與真實值間的系統誤差
資料預處理:
1. aggregation
2. 抽樣
需要樣本容量 自適應抽樣 漸進抽樣
3. 維歸約(多屬性降低為較少屬性)
主要技術:pca(主成分分析) 、svd(奇異值分解)
特徵子集選擇(降低維度的另一種方法,採用選取特徵的乙個子集)
特徵子集選擇、特徵加權
特徵建立:
特徵提取(由原始資料建立新的特徵集稱作特徵提取)
時間序列型別資料採用傅利葉變換特徵構造
離散化和二元化
變數變換
例如:相似度到[0, 1]區間的變換公式:
s』 = (s-min_s)/(max_s-min_s)
note: max_s和min_s分別是相似度的最大值和最小值
資料物件的相異度:
1. 距離:
資料探勘 筆記 閱讀之資料探勘比賽基本流程
乾貨 kaggle 資料探勘比賽經驗分享 資料分析,資料清洗,特徵工程,模型訓練和驗證等四個大的模組 離散值 目標變數的分布 離散值 某個id上面不平衡 變數之間的分布和相關度,發現高相關和共線性的特徵 預處理 特徵缺失值的處理 連續值 偏正態分佈用均值代替,保持資料均值 長尾分布用中值代替,避免受...
web資料探勘(學習筆記) 觀點挖掘
觀點挖掘 1.主要挖掘非結構化的文字,涉及自然語言處理技術 2.網路已經顯著改變人們表達觀點的方式,使用者生成的內容已經成為 的一種形式 3.主要研究三方面的觀點挖掘的任務 意見分類 基於特徵觀點挖掘和摘要 比較句子和比較關係挖掘 4.意見分類 文件層次上分類,將評價分類到正面,或者負面。當前大多研...
資料探勘學習筆記 3
常見的資料融合方法有 靜態的融合方法,如加權最小平方等 動態的融合方法,如遞迴加權最小平方 卡爾曼濾波 小波變換的分布式濾波等 基於統計的融合方法,如馬爾可夫隨機場 最大似然法 貝葉斯值等 基於資訊理論演算法的方法,如聚集分析 自適應神經網路 表決邏輯 資訊熵 基於模糊集理論的聚類方法等。資料清理的...