特徵提取 標準化

2021-09-17 04:26:48 字數 880 閱讀 1006

1、由於歸一化使用最大值最小值進行計算,若最大值或最小值缺失或錯誤,歸一化結果的準確性就會大大降低,為此可採用標準化

2、標準化公式:

3、api

sklearn.preprocessing.standardscaler()

standardscaler.fit_transform(x)

x:numpy array格式的資料 [n_samples,n_features]

n_samples:樣本數 n_features:特徵數(列)

返回值:形狀相同的array

4、在已有樣本足夠多的情況下較穩定,適合現代嘈雜大資料場景

ex_1

from sklearn.preprocessing import standardscaler

import jieba

def stand_demo():

'''標準化

:return:

'''data = pd.read_csv("data.txt")

data = data.iloc[:,:3]

transfer = standardscaler()

data_new = transfer.fit_transform(data)

print("data_new:\n", data_new)

return none

為什麼要特徵標準化及特徵標準化方法

歸一化化就是要把你需要處理的資料經過處理後 通過某種演算法 限制在你需要的一定範圍內。歸一化的原因是什麼那?一是,為了後面資料處理的方便,把不同量綱的東西放在同一量綱下比較,即 把不同 的資料統一到乙個參考係下,這樣比較起來才有意義。簡單的舉個例子 一張表有兩個變數,乙個是體重kg,乙個是身高cm。...

特徵工程 特徵提取

特徵提取 將任意資料 如文字或影象 轉換為可用於機器學習的數字特徵 注 特徵值化是為了計算機更好的去理解資料 字典特徵提取 作用 對字典資料進行特徵值化 dictvectorizer.get feature names 返回類別名稱 from sklearn.feature extraction i...

顏色特徵提取

顏色特徵是在影象檢索中應用最為廣泛的視覺特徵,主要原因在於顏色往往和影象中所包含的物體或場景十分相關。此外,與其他的視覺特徵相比,顏色特徵對影象本身的尺寸 方向 視角的依賴性較小,從而具有較高的魯棒性。面向影象檢索的顏色特徵的表達涉及到若干問題。首先,我們需要選擇合適的顏色空間來描述顏色特徵 其次,...