歸一化:
歸一化是一種簡化計算的方式,即將有量綱
的表示式,經過變換,化為
無量綱的表示式,成為
標量。 在多種
計算中都經常用到這種方法。
線性函式轉換:
y=(x-minvalue)/(maxvalue-minvalue)
說明:x、y分別為轉換前、後的值,maxvalue、minvalue分別為樣本的最大值和最小值。
對數函式轉換:
y=log10(x)
說明:以10為底的
對數函式
轉換。
反正切函式轉換:
y=atan(x)*2/pi
z-score標準化:
標準分數(standard score)也叫z分數(z-score),是乙個分數與
平均數的差再除以
標準差的過程。
用公式表示為:
z=(x-μ)/σ。其中x為某一具體分數,
μ為平均數,σ為標準差。
z值的量代表著原始分數和母體平均值之間的距離,是以標準差為單位計算。在原始分數低於平均值時z則為負數,反之則為正數。
標準分數可以回答這樣乙個問題:"乙個給定分數距離平均數多少個標準差?"在平均數之上的分數會得到乙個正的標準分數,在平均數之下的分數會得到乙個負的標準分數。 注:
標準差計算公式:
假設有一組數值x₁,x₂,x₃,......xn(皆為
實數),其
平均值(
算術平均值)為μ,公式如圖1。
標準差也被稱為
標準偏差,或者實驗標準差,公式為
。簡單來說,標準差是一組資料
平均值分散程度的一種度量。乙個較大的標準差,代表大部分數值和其平均值之間差異較大;乙個較小的標準差,代表這些數值較接近平均值。
引自:
資料預處理 歸一化
歸一化是一種資料預處理方法,就是要把你需要處理的資料經過處理後 通過某種演算法 限制在你需要的一定範圍內,為了後面資料處理的方便,其次是保正程式執行時 收斂加快 歸一化的三種方法 1 線性函式轉換 表示式如下 y x minvalue maxvalue minvalue 說明 x y分別為轉換前 後...
資料預處理 歸一化
由於進行分類器或模型的建立與訓練時,輸入的資料範圍可能比較大,同時樣本中各資料可能量綱不一致,這樣的資料容易對模型訓練或分類器的構建結果產生影響,因此需要對其進行歸一化處理。那就是將該樣本 樣本集中第i行資料 歸一到範圍 0,1 之間。一種簡單而快速的標準歸一化處理演算法是線性轉換演算法,最為常見的...
資料預處理 歸一化
1 公式 x numpy array格式的資料 n samples,n features n samples 樣本數 n features 特徵數 列 返回值 形狀相同的array 3 缺點 由於歸一化使用最大值最小值進行計算,若最大值 最小值缺失或錯誤,歸一化結果的準確性就會大大降低,為此可採用標...