特點:通過對原始資料的變換對映到預設為[0,1]之間
目的:是的某一特徵值不會對結果造成更大的影響===》幾個特徵值對結果影響權重相等的二十號要進行歸一化
缺點:異常點(在最大最小值之外)
對異常點的處理不好,魯棒性較差,只適合傳統的小資料場景
例項:
#結果:!/usr/bin/env python
#-*- coding: utf-8 -*-
#author tom
#匯入歸一化處理的包
from sklearn.preprocessing import
minmaxscaler
defmm(x):
"""對資料預處理(歸一化處理)
:return:
"""min_max=minmaxscaler()
data=min_max.fit_transform(x)
(data)
if__name__ == '
__main__':
l=[[90,2,10,40],
[60,4,15,45],
[75,3,13,46]]
mm(l)
改變歸一化範圍:
特點:方差越小資料越集中,方差越大越分散在樣本足夠多的時候穩定,適合現代嘈雜的大資料場景
例項:
#結果:!/usr/bin/env python
#-*- coding: utf-8 -*-
#author tom
from sklearn.preprocessing import
standardscaler
defstander(x):
"""標準化縮放
:param x:
:return:
"""s=standardscaler()
data=s.fit_transform(x)
(data)
if__name__ == '
__main__':
l=[[1.,-1.,3.],
[2.,4.,2.],
[4.,6.,-1,]
]stander(l)
例項:
#結果:!/usr/bin/env python
#-*- coding: utf-8 -*-
#author tom
from sklearn.preprocessing import
imputer
import
numpy as np
defim(l):
"""缺失值的處理
:return:
"""#
nan nan都可以 用平均值替換
im=imputer(missing_values='
nan',strategy='
mean
',axis=0)
data=im.fit_transform(l)
(data)
if__name__ == '
__main__':
l=[[1,3],
[np.nan,2],
[4,6]]
im(l)
注意:缺失值的形式一定是np.nan
機器學習 資料預處理(特徵值轉化)
我們知道,mnist資料集中的樣本特徵是從0 255的灰度值,0表示白,而255表示黑,中間的數值代表不同深度的灰色。通過除以255的操作,我們可以把所有的特徵值限定到0 1之間,從而有利於模型計算,提高模型的準確率,這就是一種簡單的資料預處理 data preprocessing 資料預處理的方法...
特徵值 特徵值 特徵子空間和秩
矩陣的秩和它的特徵值有什麼關係呢?假設我得到了乙個矩陣的特徵值,如何根據特徵值推斷它的秩呢?我們知道,矩陣的秩代表維數,矩陣的特徵值有幾何重數和代數重數之分,其中幾何重數代表著該特徵值對應的特徵向量構成的空間 即特徵子空間 的維數,也就是在這個空間裡的所有向量經過矩陣變換 a 都不改變方向,只改變大...
特徵值 特徵向量
最近在學lsc,想蒐集一些特徵值和特徵向量的知識 1 特徵值和特徵向量 矩陣的基 定義 乙個m n的矩陣可以看成是n個列向量組成,這n個列向量的線性組合構成乙個列空間,而通常這n個列向量不是線性無關的,那麼求出這n個列向量中不相關的r個,可以稱這r列為矩陣列空間的基。基上投影的計算 要準確描述向量,...