1、由於歸一化使用最大值最小值進行計算,若最大值或最小值缺失或錯誤,歸一化結果的準確性就會大大降低,為此可採用標準化
2、標準化公式:
即
3、api
sklearn.preprocessing.standardscaler()
standardscaler.fit_transform(x)
x:numpy array格式的資料 [n_samples,n_features]
n_samples:樣本數 n_features:特徵數(列)
返回值:形狀相同的array
4、在已有樣本足夠多的情況下較穩定,適合現代嘈雜大資料場景
ex_1
from sklearn.preprocessing import standardscaler
import jieba
def stand_demo():
'''標準化
:return:
'''data = pd.read_csv("data.txt")
data = data.iloc[:,:3]
transfer = standardscaler()
data_new = transfer.fit_transform(data)
print("data_new:\n", data_new)
return none
為什麼要特徵標準化及特徵標準化方法
歸一化化就是要把你需要處理的資料經過處理後 通過某種演算法 限制在你需要的一定範圍內。歸一化的原因是什麼那?一是,為了後面資料處理的方便,把不同量綱的東西放在同一量綱下比較,即 把不同 的資料統一到乙個參考係下,這樣比較起來才有意義。簡單的舉個例子 一張表有兩個變數,乙個是體重kg,乙個是身高cm。...
特徵工程 特徵提取
特徵提取 將任意資料 如文字或影象 轉換為可用於機器學習的數字特徵 注 特徵值化是為了計算機更好的去理解資料 字典特徵提取 作用 對字典資料進行特徵值化 dictvectorizer.get feature names 返回類別名稱 from sklearn.feature extraction i...
顏色特徵提取
顏色特徵是在影象檢索中應用最為廣泛的視覺特徵,主要原因在於顏色往往和影象中所包含的物體或場景十分相關。此外,與其他的視覺特徵相比,顏色特徵對影象本身的尺寸 方向 視角的依賴性較小,從而具有較高的魯棒性。面向影象檢索的顏色特徵的表達涉及到若干問題。首先,我們需要選擇合適的顏色空間來描述顏色特徵 其次,...