1、歸一化
把資料對映到0-1範圍內,使得處理過程更加便捷;提高不同資料特徵之間的可比性,比如假設有身高,體重兩個特徵,此時假設用knn演算法計算其歐氏距離的話,可以先考慮將其歸一化處理,這樣比較更加便捷與科學。
2、標準化
是為了方便資料的下一步處理,而進行的資料縮放等變換,並不是為了方便與其他資料一同處理或比較,比如資料經過0-1均值標準化後,更利於使用標準正太分布的性質,進行處理;
3、正則化
正則化一般是用於防止模型出現過擬合的現象
正則化項是用來對模型中某些引數進行約束
其中,第一項是損失函式(經驗風險),第二項是正則化項,lamda>=0,是調整損失函式和正則化項的係數。
詳見:
歸一化 標準化和正則化
歸一化一般是將資料對映到指定的範圍,用於去除不同維度資料的量綱以及量綱單位。常見的對映範圍有 0,1 和 1,1 最常見的歸一化方法就是 min max 歸一化 舉個例子,我們判斷乙個人的身體狀況是否健康,那麼我們會採集人體的很多指標,比如說 身高 體重 紅細胞數量 白細胞數量等。乙個人身高 180...
歸一化 標準化 正則化
無量綱化使不同規格的資料轉換到同一規格。常用的無量綱化方法有標準化和區間縮放法。標準化的前提是特徵值服從正態分佈,標準化後,其轉換成標準正態分佈 區間縮放法利用了邊界值資訊,將特徵的取值區間縮放到某個特點的範圍,例如 0,1 等。標準化的前提是特徵值服從正態分佈,標準化後,其轉換成標準正態分佈 z ...
標準化 歸一化 正則化
x x x min x max x min 歸一化後的資料取值區間為 0,1 from sklearn.preprocessing import minmaxscaler import numpy as np data np.random.uniform 0,100,10 np.newaxis 隨機...