• 連續潛變數模型
• 經常有一些資料的未知的潛在的原因。
• 到目前為止,我們已經看了模型與離散的潛變數,如混合高斯模型的。
• 有時,依照我們觀察到的資料是由連續因素控制的去思考更合適。
• 動機:對於許多資料集,資料點處於接近比原來的資料空間維數低得多的複本(manifold)。
• 訓練連續潛變數模型通常被稱為降維,因為通常有許多更少的潛在維度。
• 例子:主成分分析、因子分析、獨立成分分析。
內在的潛在維度
•這兩個資料中的內在潛在維度是什麼
• 我們如何從高維資料中找到這些潛在的維度。
人類是生活在三維空間裡的動物,但是**是二維的。
內在的潛在維度
• 在這個資料集,只有3自由度的可變性——垂直和水平對應翻譯,和旋轉。
每個影象進行隨機位移和旋轉在一些更大的影象。
結果影象100*100 = 10000畫素。
產生式觀點:
• 每個資料示例生成都來自於先選擇在乙個在隱空間中的分布的乙個點,然後從輸入空間的條件分布中生成乙個點
*.最簡單潛變數模型:假設潛變數和觀測變數均為高斯分布。
*這導致概率公式的主成分分析和因子分析。
*我們首先看看標準主成分分析,然後考慮它的概率的形成。
•概率公式的優點:使用em進行引數估計, pcas(主成分分析技術)的混合、貝葉斯pca。
pca(主成分分析:principal component analysis )
用途:用於資料壓縮、視覺化、特徵提取,降維。
•目標是在d維資料中找到潛在的m主成分——
選擇s的(資料協方差矩陣)m個最高(top)特徵向量:;
也就是選擇其中比較具有代表性的特徵組成乙個向量。
投射每個輸入向量x到這個子空間,比如:
ui= 1*n維,
資料的特徵有m個,資料有n個,這樣是n*m維,
完整投影成m維需要的形式:
兩個視角/派生:
最大化方差(綠點的散射)。
最小化錯誤(每個資料點紅綠距離)。
最大方差公式
考慮資料集,xn 屬於r(
)。我們的目標是把資料投射到乙個m維空間(m維
• 考慮投影到m = 1維空間。
用d維單位向量u1定義這個空間的方向,所以
目的:最大化投影資料相對於u1的方差(這意味著包含更多的資訊)
是樣本均值(期望),
s是資料協方差矩陣。
n是樣本數量。
u1第乙個特徵
用整個樣本去最大化特徵u1.
其中樣本均值和資料協方差為:
PCA 1 降維原理
上圖為含有兩個特徵的樣本空間,資料的維度為2,可以忽視乙個不明顯的特徵,保留乙個相對差距明顯的特徵進行降維 顯然選擇特徵1效果好一點 我們也可以選擇一條更適合的直線 方差最大 把所有的點對映到這個直線上,來達到降維的目的 方差定義 var x frac sum x i bar 2 第一步 將所有樣本...
機器學習 PCA
介紹 pca是一種無監督學習的降維技術 思想1.投影後樣本越分散,保留的資訊越多 2.pca的主要思想是將n維特徵對映到k維上,這k維是全新的正交特徵也被稱為主成分,是在原有n維特徵的基礎上重新構造出來的k維特徵 做法1.將所有的樣本點向直線w投影 2.目標函式 讓投影後樣本的方差極大 第一步 x減...
機器學習之PCA降維
1.前言 如果學習分類演算法,最好從線性的入手,線性分類器最簡單的就是lda,它可以看做是簡化版的svm,如果想理解svm這種分類器,那理解lda就是很有必要的了。2.線性判別分析 lda 1 lda思想 lda是一種監督學習的降維技術,也就是說它的資料集的每個樣本是有類別輸出的。這點和pca不同。...