處理資料中的髒資料,處理無關資料等。
①缺失值處理:
相關方法:
刪除記錄:將缺失值的那條記錄刪除。
資料插補:將缺失值進行補全,方法包括:均值/中位數/眾數插補,使用固定值,最近臨插補,回歸方法,插值法。
相關利弊在原文中有介紹。
不處理:就是字面意思。-.-
插值法的介紹:拉格朗日插值法和牛頓插值法在原文重點介紹了推導公式。
**實現拉格朗日插值實現方法。見code資料夾。
②異常值處理:
常見方法:
刪除、視為缺失值、平均值修正、不處理
將不同資料來源的資料進行整合存放在乙個一致的地方的過程。
①實體識別
就是將不同資料來源的資料含義都搞清楚並統一起來。(就是同乙個東西要統一單位,統一名稱)
②冗餘屬性識別
對於重複資料的處理。具體情況具體分析。
對資料進行處理,通過前幾步處理,已經把收集到的資料處理的是我們所需要的了,這一步是為了便於我們後期演算法實現的需要對資料進行進一步處理。
①簡單函式變換
常用於將不具有正態分佈的資料變換成具有正態分佈的資料。
②規範化(歸一化)
歸一化處理是使不同特徵值的衡量標準統一,就相當於人們交易從以物換物的階段進化到有了貨幣作為統一的衡量。(常用)
1.最小—最大規範化。(就全都規範到[0,1])
2.零—均值規範化。
3.小數定標規範化。(就是移動小數字數)
③連續屬性離散化
應用於一些只能處理離散化資料的演算法。
1.等寬法。(就是將一定範圍內的資料統一賦相同值)
2.等頻法。(就是將相同數量的幾句放進每個區間)
3.聚類。(使用聚類演算法進行聚類後對得到的簇處理)
④屬性構造
就是根據實際問題,通過已有資料的分析轉化得到乙個新的能體現問題的屬性。(乙個簡單由供入供出電量例子見**。)
⑤小波變換!(好多還不夠理解,很懵。)
一種訊號分析手段。應用於訊號處理、影象處理、語音處理、模式識別、量子物理等領域。
把平穩訊號分解為表達不同層次、不同頻帶資訊的資料序列就是小波係數。選取適當的小波係數就是完成訊號的特徵提取。
1.基於小波變換的特徵提取方法(書上由方法描述,不過我覺得還是得遇到具體問題理解吧,先大概了解一下。)
基於小波變換的多尺度空間能量分布特徵提取方法。
基於小波變換的多尺度空間的模極大值特徵提取方法。
基於小波包變換的特徵提取方法。
基於適應性小波神經網路的特徵提取方法。
2.小波基函式
一種具有區域性支集的函式,並且平均值為0.
3.小波變換的公式介紹。(內容見書。)
4.基於小波變換的多尺度空間能力分布特徵提取。(由推導公式。見書。)
特徵提取的演示。
產生更小但保持原資料完整性的新資料集使分析和挖掘更有效率。
①屬性規約
通過屬性合併來建立新的或直接刪除個別屬性減少資料維數從而提高資料探勘的效率。
常用方法:合併屬性(顧名思義)、逐步向前選擇、逐步向後刪除、決策樹歸納、主成分分析。
連續屬性的資料降維方法:主成分分析。(書中有公式詳解。有**例項。)
②數值規約
通過選擇替代的、較小的資料來減少資料量。
有參方法用乙個模型來評估資料。如回歸、對數線性模型。
無參方法就存放實際資料。如直方圖、聚類、抽樣。
**部分及更多:見於此處。
學習筆記 資料預處理(資料探勘)
提取碼 m69u 主要內容 資料清洗 資料整合 資料變換 資料規約 資料清洗 物件 無關資料,重複資料,平滑雜訊資料,篩選掉與挖掘主題無關的資料,處理缺失值,異常值等。方法 刪除記錄,資料插補和不處理。常見的插補法 拉格朗日插值法 牛頓插值法 用拉格朗日插值法對缺失值進行插補的python程式。資料...
資料探勘學習筆記 資料預處理
目錄 資料預處理的任務 一 資料規範化 最小 最 min max normalization 零均值規範化 z score 二 資料離散化 無監督離散化方法 有監督離散化方法 三 資料清洗 處理資料的缺失 噪音資料的處理 四 特徵提取和特徵選擇 特徵提取 特徵選擇 q 為什麼要進行資料預處理?a 原...
資料預處理
現實世界中資料大體上都是不完整,不一致的髒資料,無法直接進行資料探勘,或挖掘結果差強人意。為了提前資料探勘的質量產生了資料預處理技術。資料預處理有多種方法 資料清理,資料整合,資料變換,資料歸約等。這些資料處理技術在資料探勘之前使用,大大提高了資料探勘模式的質量,降低實際挖掘所需要的時間。一 資料清...