系列二 資料預處理

2021-10-12 13:00:01 字數 1642 閱讀 9072

旨在對資料探勘有個系統的認識,這部分僅僅是對於資料預處理!

對於常規的資料預處理主要分為以下4步驟:

(1) 資料清洗:解決缺失值、異常值、離群點的問題

(2) 資料整合:解決樣本重複、指標構建、屬性高度相似的問題

(2) 資料規約:解決資料規模過大的問題

(4) 資料變換:將資料轉化為更方便分析的資料

(1) 填充缺失值

1)使用屬性的均值填充缺失值

2)使用與給定元組同一類的所有樣本的屬性均值填充相應的缺失值

3)使用最可能的值填充缺失值:可以使用回歸、決策樹歸納來確定最有可能 的值來填充缺失資訊。或者使用插值(拉格朗日插值法,牛頓插值法等)進行 **。此類方法是填充缺失值的最好方法。

(2) 刪除含缺失值的樣本

(3) 不處理

(1) 異常值:例如月收入為負值,資料重複等

1)當做缺失值處理

2)對於重複資料可以刪掉

首先是對於離群點的判斷

可以基於距離的檢測、基於密度的監測(如dbscan聚類法)等

對於離群點是否為雜訊

· 對於少量離群點的話,覺得可以視為雜訊然後刪除處理

· 對於相當一部分離群點,此時就要結合實際的應用場景進行判斷,考慮這些點能不能被稱為離群點?

例如建立總體模型,看這些點是否會影響模型的精準度,從而判斷是否是離群點.

除檢測屬性冗餘之外,還需要在元組(樣本)級檢測重複。資料整合的第三個重要問題是資料值衝突的檢測與處理。

1) 皮爾遜積距係數、

2) 卡方檢驗、

3)數值屬性的協方差等。

(1)資料聚集

(2)資料抽樣

(1) pca(主成分分析)

(2) svd:

(3) lda:

當我們不太關心值的小範圍變化,或者想要將連續屬性當成離散屬性處理時

(1) 最小-最大規範化(歸一化)

(2) z-score規範化(資料標準化)

(3)小數定標規範化

(4)中心化(零-均值標準化)——》 x1 = (x - 平均數) / 標準差

資料探勘 (二)資料預處理

1.資料質量的三個要素 準確性 完整性 一致性 2.資料預處理的主要任務 資料清理 資料整合 資料歸約 資料變換 資料清理主要 填補缺失的值,光滑雜訊同時識別離群點,並糾正資料的不一致性。通常是乙個兩步的迭代過程,包括偏差檢測和資料變換 注意 在某些情況下,缺失值並不意味著資料有誤。在理想情況下,每...

C 基礎系列二 預處理器

1 常見預處理器指令集 c 繼承了c的非常精細的預處理器,以高度受限的方式使用預處理器。預處理器主要的指令及功能如下表 指令功能 空指令,無任何效果 include 包含乙個源 檔案,把原始檔中的 include擴充套件為檔案正文,即把包含.h的檔案找到並擴充套件到 include所在處 defin...

VAD實現 (二) 資料預處理

在用vad演算法確定靜音和語音資料的開始和起止點之前,需要對語音資料進行處理,然後再計算語音資料的開始和起止點,這個過程稱為資料的預處理,有些vad演算法是基於短時能量和過零率實現的,並不進行預處理操作,但實驗表明,對資料進行預處理之後的效果要比不進行預處理的效果好。這裡,對資料進行去除直流和加窗兩...