機器學習之k近鄰演算法 4 特徵值歸一化

2021-06-27 20:45:46 字數 772 閱讀 9701

為什麼需要做特徵值歸一化:

對於特徵是年齡、身高、年薪,標籤是擇偶觀的樣本資料而言,顯然利用特徵的差值來估算擇偶觀來看,年薪這一特徵值對於計算結果的影響最大。因此,我們需要對樣本資料做歸一化處理。

對於每一行樣本資料來說,歸一化處理公式如下:

normdataset=(data-min)/(max-min)

就上圖對於(年齡、身高、年薪)=(20、178、20000)的這行資料來說,歸一化之後,這行資料會更改為:

年齡=(20-20)/(30-20)=0

身高=(178-160)/(178-160)=1

年薪=(20000-20000)/(40000-20000)=0

所以,特徵值歸一化後,變為(0,1,0)

特徵值歸一化的**:

1、樣本資料(只包含特徵值,不包含標籤):

2、執行**:

3、測試結果:

機器學習4 特徵向量與特徵值

a為n階矩陣,若數 和n維非0列向量x滿足ax x,那麼數 稱為a的特徵值,x稱為a的對應於特徵值 的特徵向量。式ax x也可寫成 a e x 0,並且 e a 叫做a 的特徵多項式。當特徵多項式等於0的時候,稱為a的特徵方程,特徵方程是乙個齊次線性方程組,求解特徵值的過程其實就是求解特徵方程的解。...

機器學習特徵值特徵抽取

根據文字的的特徵值,進行特徵值的抽取 from sklearn.feature extraction import dictvectorizer from sklearn.feature extraction.text import countvectorizer def countvec 對文字進...

機器學習之k 近鄰演算法

k nearest neighbor演算法又叫knn演算法,這個演算法是機器學習裡面乙個比較經典的演算法,總體來說knn演算法是相對比較容易理解的演算法 定義 如果乙個樣本在特徵空間中的k個最相似 即特徵空間中最鄰近 的樣本中的大多數屬於某乙個類別,則該樣本也屬於這個類別 2 相似度 就是指兩個點之...