在資料預處理中，如何填充缺失值？如何判斷異常值？

缺失值的處理：

(1) 刪除缺失值；

(2) 填補缺失值：

<1>均值法填補

根據缺失值的屬性相關係數最大的那個屬性把資料分成幾個組，然後分別計算每個組的均值，把這些均值放入到缺失的數值裡面就可以了。

<2>最近距離決定填補法

假設現在為時間y,前一段時間為時間x，然後根據x的值去把y的值填補好。

如何判斷異常值：

(1)基於正態分佈的一元離群點檢測方法：根據正態分佈的定義可知，距離平均值3δ之外的概率為 p(|x-μ|>3δ) <= 0.003 ，這屬於極小概率事件。在預設情況下我們可以認定，距離超過平均值3δ的樣本是不存在的。因此，當樣本距離平均值大於3δ，則認定該樣本為異常值。

(2)箱型圖分析：箱型圖提供了乙個識別異常值的標準，即大於或小於箱型圖設定的上下界的數值即為異常值。首先我們定義下上四分位和下四分位。上四分位我們設為 u，表示的是所有樣本中只有1/4的數值大於u 。同理，下四分位我們設為 l，表示的是所有樣本中只有1/4的數值小於l。我們設上四分位與下四分位的差值為iqr，即：iqr=u-l。那麼，上界為 u+1.5iqr，下界為：l-1.5iqr。箱型圖選取異常值比較客觀，在識別異常值方面有一定的優越性。

在資料預處理中，如何填充缺失值？如何判斷異常值？

資料預處理缺失值處理

pandas資料預處理缺失值

資料預處理之缺失值處理

在資料預處理中，如何填充缺失值？如何判斷異常值？

資料預處理 缺失值處理

pandas資料預處理 缺失值

資料預處理之缺失值處理

相關推薦

資料預處理缺失值處理

pandas資料預處理缺失值