score函式 機器學習 機器學習中的歸一化方法

2021-10-13 03:18:47 字數 1174 閱讀 4629

在這裡主要討論兩種歸一化方法:

1、線性函式歸一化(min-max scaling)

線性函式將原始資料線性化的方法轉換到[0 1]的範圍,歸一化公式如下:

該方法實現對原始資料的等比例縮放,其中xnorm為歸一化後的資料,x為原始資料,xmax、xmin分別為原始資料集的最大值和最小值。

2、0均值標準化(z-score standardization)

0均值歸一化方法將原始資料集歸一化為均值為0、方差1的資料集,歸一化公式如下:

其中,μ、σ分別為原始資料集的均值和方法。該種歸一化方式要求原始資料的分布可以近似為高斯分布,否則歸一化的效果會變得很糟糕。

兩種歸一化的應用場景:

1、在分類、聚類演算法中,需要使用距離來度量相似性的時候、或者使用pca技術進行降維的時候,第二種方法(z-score standardization)表現更好。

2、在不涉及距離度量、協方差計算、資料不符合正太分布的時候,可以使用第一種方法或其他歸一化方法。比如影象處理中,將rgb影象轉換為灰度影象後將其值限定在[0 255]的範圍。

為什麼在距離度量計算相似性、pca中使用第二種方法(z-score standardization)會更好呢?我們進行了以下的推導分析:

歸一化方法對方差、協方差的影響:假設資料為2個維度(x、y),首先看0均值對方差、協方差的影響:

先使用第二種方法進行計算,我們先不做方差歸一化,只做0均值化,變換後資料為

新資料的協方差為

由於因此

而原始資料協方差為

因此做方差歸一化後:

方差歸一化後的協方差為:

使用第一種方法進行計算,為方便分析,我們只對x維進行線性函式變換

計算協方差

可以看到,使用第一種方法(線性變換後),其協方差產生了倍數值的縮放,因此這種方式無法消除量綱對方差、協方差的影響,對pca分析影響巨大;同時,由於量綱的存在,使用不同的量綱、距離的計算結果會不同。

而在第二種歸一化方式中,新的資料由於對方差進行了歸一化,這時候每個維度的量綱其實已經等價了,每個維度都服從均值為0、方差1的正態分佈,在計算距離的時候,每個維度都是去量綱化的,避免了不同量綱的選取對距離計算產生的巨大影響。

總結來說,在演算法、後續計算中涉及距離度量(聚類分析)或者協方差分析(pca、lda等)的,同時資料分布可以近似為狀態分布,應當使用0均值的歸一化方法。其他應用中更具需要選用合適的歸一化方法。

score函式 機器學習 機器學習(一) 損失函式

優化是應用數學的乙個分支,也是機器學習的核心組成部分。實際上 機器學習演算法 模型表徵 模型評估 優化演算法其中,優化演算法起到的作用就是在模型表徵空間中找到模型評估指標最好的模型。不同的模型表徵和模型評估通常使用著不同的優化演算法。因此,為了利用優化演算法來對模型進行優化,我們通常需要給出乙個模型...

機器學習 機器學習目錄

注 後期有時間的話會對每乙個演算法進行講解。1 普通線性回歸 2 廣義線性模型 3 邏輯回歸 4 線性判定分析1 決策樹基本原理與構建 2 cart演算法 3 回歸決策樹 4 分類決策樹1 貝葉斯定理與樸素貝葉斯 2 高斯貝葉斯分類器 3 多項式貝葉斯分類器 4 伯努利貝葉斯分類器 5 遞增式學習1...

機器學習 機器學習概論

3 模型評估與模型選擇 4.具體應用 統計學習 是關於計算機基於 資料 構建概率統計模型並運用模型對資料進行 分析 統計學習的三要素 模型在監督學習中,模型就是所要學習的條件概率分布或決策函式。這在後面的章節中會重點介紹。策略 評價模型的標準 用損失函式和代價函式來度量 錯誤的程度。1 幾種損失函式...