資料分析 資料標準化

2021-07-06 05:17:45 字數 715 閱讀 3154

一、為何要將資料標準化?

為了消除量綱影響和變數自身變異大小和數值大小的影響,故將資料標準化。

由於不同變數常常具有不同的單位和不同的變異程度。不同的單位常使係數的實踐解釋發生困難。例如:第1個變數的單位是kg,第2個變數的單位是cm,那麼在計算絕對距離時將出現將兩個事例中第1個變數觀察值之差的絕對值(單位是kg)與第2個變數觀察值之差的絕對值(單位是cm )相加的情況。

二、什麼情況下需要對資料標準化處理?

在資料屬性字段之間存在不同的單位和不同的變異程度的情況時,就需要考慮對資料標準化處理了,尤其是需要比較你所引入的變數之間誰對被解釋變數的影響作用更大的時候,這與用什麼資料探勘方法無關。只是某些方法,比如回歸分析中本身要求計算標準回歸係數的功能,但這不代表不需要考慮資料標準化這一步驟。

三、資料標準化方法

標準差標準化是將某變數中的觀察值減去該變數的平均數,然後除以該變數的標準差。

離差標準化是將某變數中的觀察值減去該變數的最小值,然後除以該變數的極差。

先對事例進行標準差標準化,再對變數進行標準差標準化。

先對變數、後對事例、再對變數的標準差標準化。

python資料分析資料標準化及離散化詳解

python資料分析資料標準化及離散化詳解 本文為大家分享了python資料分析 執行結果 2 標準差標準化 消除單位影響以及變數自身變異影響。零 均值標準化 基本公式為 x x 平均數 標準差 python user bin env python coding utf 8 author m10 i...

資料標準化

從廣義上來講,資料標準化的過程可以看作是業務系統內部或業務系統之間,乃至整個資料治理系統中的乙個 語言 統一的過程。只有語言統一,才能讓同一業務系統或者不同業務系統之間有了對話 呼叫 通訊的可能,從而保證使用的都是特定的某乙個方言。同樣,資料標準化的過程反映程式及系統設計或架構級別時,就可以看作連線...

資料標準化

特徵縮放 feature scaling 1 也稱為資料的標準化 normalization 是將資料按比例縮放,使之落入乙個特定區間。不同資料往往具有不同的量綱,會影響到資料分析的結果,為了消除資料之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各...