理論要點
(1)主成分分析是一種無監督學習,因此不能用交叉驗證來檢驗誤差
(2)在處理資料之前,要對資料做中心化處理
(3)p太大的話,做特徵分解用svd
(4)一共有min(n-1,p)個主成分,因為中心化以後,rank要降一維
(5)主成分的載荷向量就是協方差矩陣的特徵向量,對應特徵值最大的是第一主成分,第二大的是第二主成分
(6)另外乙個解釋:min||x-xwwt||^2=1,st wwt=1,反轉回去之後,誤差最小
(7)pve=特徵值/特徵值之和,tr(協方差矩陣)=特徵值之和
實驗過程
工具:r語言
呼叫的函式:prcomp()函式
用usarrests資料集做主成分分析實驗
states=row.names(usarrests)
states
names(usarrests)
pr.out=prcomp(usarrests,scale=true)
names(pr.out)
pr.out$center
pr.out$rotation
dim(pr.out$x)
biplot(pr.out,scale=0)
#畫鏡面反射圖
pr.out$rotation=-pr.out$rotation
pr.out$x=-pr.out$x
biplot(pr.out,scale=0)
#輸出每個主成分的標準差
pr.out$sdev
pr.var=pr.out$sdev^2
pr.var
pve=pr.var/sum(pr.var)
pveplot(pve,xlab="pc",ylab="pve",ylim=c(0,1),type='b')
plot(cumsum(pve),xlab="pc",ylab="cpve",ylim=c(0,1),type="b")
#cumsum()函式用於計算數值向量中的元素的累積和
主成分分析
主成分分析 pca 分析乙個隨機向量的中的主成分 主成分一般不是隨機向量中的某乙個分量,而是不同分量的線性組合,根據資訊理論的觀點,資訊的多少與方差有關,所以 主成分是方差最大的幾個成分 主成分分析的方法是求隨機向量的協方差矩陣 用樣本協方差矩陣代替 對於差異較大的資料,可採用相關矩陣代替協方差矩陣...
主成分分析
1.概念 將一組可能存在相關性的隨機變數轉變成互不相關的隨機變數。這個概念裡有三個地方需要理解清楚。1 隨機變數的指代 在資料集中,每乙個樣本,即將資料集理解成乙個 的話,乙個樣本就是一行,則每一列就是乙個特徵,也就是乙個隨機變數,一列的所有取值就是隨機變數的所有可能取值 說的所有可能取值只針對訓練...
主成分分析
一。概述 定義 高維資料轉化成低維資料的過程,在此過程中可能會捨棄原有資料。創造新的變數。作用 是資料維數壓縮,盡可能降低原資料的維數 複雜度 缺失少量資訊。應用 回歸分析或者聚類分析 pca降維 1.例項化乙個轉化器類 data 1,3,4,4 2,2,4,5 2,3,4,5 transfor p...