標籤(空格分隔): 機器學習 降維 pca
第二種無監督學習問題,稱為降維。
比如我們有兩個特徵量:x1長度(cm),x2(英吋)。
兩種儀器對同乙個東西測量結果不完全相等,而將兩個都作為特徵有些重複,因而我們希望將這個二維的資料降維至一維。
x原本是二維的,然後降成一維的z。
同理也可以將1000維降維100維。
高維資料無法作為視覺化,只有一維二維三維我們可視。。。
pca中我們要做的是找到乙個方向向量,當我們吧所有的資料都投射到該向量上時,投射平均均方誤差能盡可能地小。方向向量是乙個經過原點的向量,而投射誤差是從特徵向量向該方向向量做垂線的長度。
pca問題描述:
是要將n維資料降維k維,目標是找到向量u(
1),u
(2),
u(3)
,...
,u(k
) u(1
),u(
2),u
(3),
...,
u(k)
pca與線性回歸的區別:乙個是到向量距離最小,乙個是(h(x),y)誤差最小。
均值歸一化:我們需要計算出所有特徵的均值,然後另xj
=xj−ujx
j=xj
−uj。如果特徵是在不同的數量及上,還需要除以標準差δ2δ2
.計算協方差矩陣(convariance matrix)
σ σ
:σ=1m∑
ni=1
(x(i
))(x
(i))
t σ=1
m∑i=
1n(x
(i))
(x(i
))t計算協方差矩陣的特徵向量(eigenvectors)
求特徵向量,可以用奇異值分解。
對於乙個n*n的矩陣,我們希望降到k維,只要從u
中選取前k個向量,獲得乙個n*k的矩陣,我們用ur
educ
e ure
duce
表示,然後通過計算得到新特徵限量z(
i)=u
tred
uce∗
x(i)
z (i
)=ur
educ
et∗x
(i)。因為x是n*1維的,所以結果為k*1維。
重建壓縮表示
因為是乙個壓縮演算法,所以需要可以恢復到原始資料。
x≈x數量的選擇-k
訓練集的方差1m
∑mi=
1||x
(i)|
|21 m∑
i=1m
||x(
i)||
2可以用特徵值計算平均均方誤差與訓練集方差的比例:
這樣就可以得到應有的k值。
注意主成分分析,壓縮特徵的一種方法,所以對train-set計算得到ur
educ
e ure
duce
之後,就不再參與學習過程。但是在使用test-set或cv-set,或**的新樣本的時候,只需要使用ur
educ
e ure
duce
變換特徵,並且將得到的結果重建出來。
注意的是這並不是在學習中反覆迭代部分的內容。而且一種資料預處理。
**pca不能用於去除過擬合,只是可以提高演算法速度。過擬合還是需要正則化去除。
Coursera吳恩達機器學習教程筆記(三)
上回說到當假設函式的引數增多的時候,代價函式的維度就會變高,描點畫圖這種方法就不適用了,那得咋整呢?所以我們就要採用數學的方法找到代價函式的最小值。這個方法就是大名鼎鼎的梯度下降法。啥叫梯度下降呢?來看這張圖。這張圖的outline就是梯度下降的基本思想,先給定一組引數 0,1,然後不斷調解上面兩個...
吳恩達機器學習筆記
為了解決實際生活中的問題,我們通常需要乙個數學模型。比如,小明有乙個房子 他想賣掉房子 為了知道房子的 小明收集了該地區近兩年的房屋交易 他發現房屋 與房屋大小呈正相關,所以他畫了了一幅圖 小明的房屋大小用紅色的 代替。可見和小明房屋一樣大小的房子並不存在,而類似的房屋 又有很大差別,如此小明決定用...
吳恩達機器學習感悟
吳恩達機器學習,斯坦福2014筆記 由8.2 神經元和大腦想到的 神經重連實驗,比如眼睛連到聽覺皮層,則聽覺皮層學會了看 眼睛連到觸覺皮層,則觸覺皮層學會了看 舌頭上加攝像頭關聯的電極陣列,則負責舌頭感知的皮層學會了看。這寫neuron re wiring實驗,給出的結論是大腦各區使用的是同一種演算...