原文:
資料預處理有四個任務,資料清洗、資料整合、資料 變換和資料規約。
一、資料清洗
1.缺失值處理
處理缺失值分為三類:刪除記錄、資料補差和不處理。
資料補插方法:
1. 補插均值/中位數/眾數
2. 使用固定值
3. 最近鄰補插
4. 回歸方法
5. 插值法
插值法介紹:
(1)拉格朗日插值法
(2)牛頓插值法 (需要另寫,具有承襲性和易於變動節點的特點)
(3)hermite插值
(4)分段插值
(5)樣條插值
2.異常值處理
(1)刪除有異常值的記錄
(2)視為缺失值
(3)平均值修正
(4)不處理
要分析異常值的原因,再決定取捨。
二、資料整合
將多個資料來源放在乙個統一的資料倉儲中。
1.實體識別
同名異義
異名同義
單位不統一
2.冗餘屬性識別
同一屬性多次出現
同一屬性命名不一致
三、資料變換
對資料進行規範化處理
1.簡單函式變換
原始資料進行數學函式變換,平方、開方、取對數、差分運算。用來將不具有正太分布的資料變換成具有正太性的資料。
時間序列分析中,對數變換或者差分運算可以將非平穩序列轉換為平穩序列。
2.規範化
消除指標間量綱影響
(1)最小-最大規範化
(2)零-均值規範化
(3)小數定標規範化
3.連續屬性離散化
將連續屬性變為分類屬性,即連續屬性離散化。資料離散化本質上通過斷點集合將連續的屬性空間劃分為若干區,最後用不同的符號或者整數值代表落在每個子區間中的資料。離散化涉及兩個子任務:確定分類以及如何將連續屬性值對映到這些分類值。
(1)等寬法
(2)等頻法
(3)基於聚類分析的方法
4.屬性構造
利用已有的屬性構造新的屬性,並加到現有的屬性中。
5.小波變換
非平穩序列的分析手段。
基於小波變換的特徵提取方法:
(1)基於小波變換的多尺度空間能量分布特徵提取法
(2)基於小波變換的多尺度空間的模極大特徵值提取法
(3)基於小波變換的特徵提取方法
(4)基於適應性小波神經網路的特徵提取方法
四、資料規約
降低無效,錯誤資料對建模的影響,提高建模的準確性。
少量且代表性的資料將大幅縮減資料探勘所需時間。
降低儲存資料成本。
1.屬性規約
(1)合併屬性
(2)逐步向前選擇
(3)逐步向後刪除
(4)決策樹歸納
(5)主成分分析
2.數值規約
通過選擇替代的、較小的資料來減少資料量,包含有引數方法和無引數方法兩類;有引數方法使用模型評估資料,不需要存放真實資料,只需要存放引數,例如回歸、對數線性模型。無引數需要資料,例如直方圖、聚類、抽樣。
資料預處理方法
一.資料清理 1.填出缺失值 無記錄值資料 1 忽略元祖 缺少類標號時使用,適用於多個屬性值缺失 2 人工填寫缺失值 3 用屬性的均值填充缺失值 4 用全域性常量填充 unknow 5 用同樣本的屬性均值填充缺失值 6 使用最可能的值填充缺失值 可由回歸 貝葉斯形式化的基於推理的工具或決策樹歸納確定...
資料預處理方法
資料匯入 初步看變數間的關係 視覺化,facetgrid 仔細看 看因變數與各變數的關係 a numerical用scatter b categorical用boxplot 看各變數之間的關係,是否存在多重共線性,相關性高的列可以刪除乙個 刪除對 沒用的列 看outlier 1 通過standard...
資料預處理基本方法
1 聚集 聚集可能丟失細節,聚集是統計學的表現 被聚集的單個物件 按平均值 總數 按天 周 月等聚集量 2 抽樣 選擇資料子集進行分析的方法。抽樣方法 a 隨機取樣 無放回取樣 放回取樣 b 分層取樣 當總體有不同型別的物件組成,每種型別的物件差別很大時,隨機取樣不能充分的代表不太頻繁出現的物件型別...