資料探勘學習筆記 關於資料的基本概念

2021-08-02 23:46:34 字數 1064 閱讀 8593

屬性:

按照屬性的型別分:

1. 定性的(分類的)

標稱(nominal)\序數(ordinal)

2. 定量的(數值的)

區間(interval)、比率(ratio)

按照屬性值的個數分:

離散的(discrete)

連續的(continuous)

資料質量:

因為存在測量誤差資料收集錯誤(如遺漏資料物件或遺漏資料屬性,或不當地包含了其他資料物件等錯誤),會出現雜訊或偽像

所以需要進行資料清理(data cleanning)

##### 資料質量度量

1.精度(同乙個量的)重複測量值之間的接近程度,故常用標準差來度量

2.bias測量值與真實值間的系統誤差

資料預處理:

1. aggregation

2. 抽樣

需要樣本容量  自適應抽樣 漸進抽樣
3. 維歸約(多屬性降低為較少屬性)

主要技術:pca(主成分分析) 、svd(奇異值分解)
特徵子集選擇(降低維度的另一種方法,採用選取特徵的乙個子集)

特徵子集選擇、特徵加權

特徵建立:

特徵提取(由原始資料建立新的特徵集稱作特徵提取

時間序列型別資料採用傅利葉變換特徵構造

離散化和二元化

變數變換

例如:相似度到[0, 1]區間的變換公式:

s』 = (s-min_s)/(max_s-min_s)

note: max_s和min_s分別是相似度的最大值和最小值

資料物件的相異度:

1. 距離:

資料探勘 筆記 閱讀之資料探勘比賽基本流程

乾貨 kaggle 資料探勘比賽經驗分享 資料分析,資料清洗,特徵工程,模型訓練和驗證等四個大的模組 離散值 目標變數的分布 離散值 某個id上面不平衡 變數之間的分布和相關度,發現高相關和共線性的特徵 預處理 特徵缺失值的處理 連續值 偏正態分佈用均值代替,保持資料均值 長尾分布用中值代替,避免受...

web資料探勘(學習筆記) 觀點挖掘

觀點挖掘 1.主要挖掘非結構化的文字,涉及自然語言處理技術 2.網路已經顯著改變人們表達觀點的方式,使用者生成的內容已經成為 的一種形式 3.主要研究三方面的觀點挖掘的任務 意見分類 基於特徵觀點挖掘和摘要 比較句子和比較關係挖掘 4.意見分類 文件層次上分類,將評價分類到正面,或者負面。當前大多研...

資料探勘學習筆記 3

常見的資料融合方法有 靜態的融合方法,如加權最小平方等 動態的融合方法,如遞迴加權最小平方 卡爾曼濾波 小波變換的分布式濾波等 基於統計的融合方法,如馬爾可夫隨機場 最大似然法 貝葉斯值等 基於資訊理論演算法的方法,如聚集分析 自適應神經網路 表決邏輯 資訊熵 基於模糊集理論的聚類方法等。資料清理的...