1.降維簡介
1)相關背景
(1)在許多領域的研究與應用中,通常需要對含有多個變數的資料進行觀測,收集大量資料後進行分析尋找規律。
(2)因此需要找到一種合理的方法,在減少需要分析的指標同時,儘量減少原指標包含資訊的損失,以達到對所收集資料進行全面分析的目的。
(3)由於各變數之間存在一定的相關關係,因此可以考慮將關係緊密的變數變成盡可能少的新變數,使這些新變數是兩兩不相關的,那麼就可以用較少的綜合指標分別代表存在於各個變數中的各類資訊。
(4)主成分分析與因子分析就屬於這類降維演算法。
2)資料降維
(1)降維就是一種對高維度特徵資料預處理方法,是應用非常廣泛的資料預處理方法。
(2)降維是將高維度的資料保留下最重要的一些特徵,去除雜訊和不重要的特徵,從而實現提公升資料處理速度的目的。
(3)在實際的生產和應用中,降維在一定的資訊損失範圍內,可以為我們節省大量的時間和成本。
3)降維的優點
4)降維演算法
2.主成分分析(pca)
1)pca(principal component analysis),即主成分分析方法,是一種使用最廣泛的資料降維演算法。
(1)主成分分析試圖在力保資料資訊丟失最少的原則下,對多個變數進行最佳綜合簡化,即對高維變數空間進行降維處理。
(2)pca的主要思想是將n維特徵對映到k維上,這k維是全新的正交特徵也被稱為主成分,是在原有n維特徵的基礎上重新構造出來的k維特徵。
(3)pca的工作就是從原始的空間中順序地找一組相互正交的座標軸,新的座標軸的選擇與資料本身是密切相關的。轉換座標系時,以方差最大的方向作為座標軸方向,因為資料的最大方差給出了資料的最重要的資訊。
(4)通過這種方式獲得的新的座標軸,我們發現,大部分方差都包含在前面k個座標軸中,後面的座標軸所含的方差幾乎為0。
2)如何得到包含最大差異性的主成分方向
(1)通過計算資料矩陣的協方差矩陣,然後得到協方差矩陣的特徵值特徵向量,選擇特徵值最大(即方差最大)的k個特徵所對應的特徵向量組成的矩陣。這樣就可以將資料矩陣轉換到新的空間當中,實現資料特徵的降維。
(2)由於得到協方差矩陣的特徵值特徵向量有兩種方法:特徵值分解協方差矩陣、奇異值分解協方差矩陣,所以pca演算法有兩種實現方法:基於特徵值分解協方差矩陣實現pca演算法、基於svd分解協方差矩陣實現pca演算法。
3)重點歸納
(1)線性變換=>新特徵軸可由原始特徵軸線性變換表徵
(2)線性無關=>構建的特徵軸是正交的
(3)主要線性分量(或者說是主成分)=>方差加大的方向
(4)pca演算法的求解就是找到主要線性分量及其表徵方式的過程
4)pca使用例子
from sklearn.decomposition import pca
import numpy as np
x = np.array([[-1, 1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
pca=pca(n_components=1)pca.fit(x)
3.因子分析(fa)
1)因子分析簡介
(1)因子分析是從假設出發,它是假設所有的自變數x出現的原因是因為背後存在乙個潛變數f(也就是我們所說的因子),在這個因子的作用下,x可以被觀察到。
(2)因子分析是通過研究變數間的相關係數矩陣,把這些變數間錯綜複雜的關係歸結成少數幾個綜合因子,並據此對變數進行分類的一種統計分析方法。
(3)因子分析就是將原始變數轉變為新的因子,這些因子之間的相關性較低,而因子內部的變數相關程度較高。
(4)因子分析可以用於降維,但因子分析的作用遠不止降維。
(5)例子:乙個學生考試,數學,化學 ,物理都考了滿分,那麼我們認為這個學生理性思維較強,理性思維就是乙個因子。在這個因子的作用下,偏理科的成績才會那麼高。
2)因子分析的主要目的
(1)探索結構:在變數之間存在高度相關性的時候我們希望用較少的因子來概括其資訊。
(2)簡化資料:把原始變數轉化為因子得分後,使用因子得分進行其他分析,比如聚類分析、回歸分析等。
(3)綜合評價:通過每個因子得分計算出綜合得分,對分析物件進行綜合評價。
3)相關的概念
(1)因子載荷
(2)變數共同度
變數共同度就是每個變數所包含的資訊能夠被因子所解釋的程度,其取值範圍介於0和1之間,取值越大,說明該變數能被因子解釋的程度越高。
(3)因子旋轉
(4)因子得分
4)因子分析步驟
(1)判斷資料是否適合因子分析
(2)構造因子變數
(3)利用因子旋轉方法使得因子更具有實際意義
(4)計算每個個案因子得分
5)確定提取因子個數的標準
(1)初始特徵值大於1的因子個數
(2)累積方差貢獻率達到一定水平(60%)的因子個數
(3)碎石圖中處於較陡峭曲線上所對應的因子個數
(4)依據對研究事物的理解而指定因子個數
6)主成分和因子分析比較
(1)因子分析中是把變數表示成各因子的線性組合,而主成分分析中則是把主成分表示成各個變數的線性組合。
(2)主成分分析的重點在於解釋各變數的總方差,而因子分析則把重點放在解釋各變數之 間的協方差。
(3)主成分分析中不需要有假設(assumptions),因子分析則需要一些假設。因子分析的假設包括:各個共同因子之間不相關,特殊因子(specific factor)之間也不相關,共同因子和特殊因子之間也不相關。
(4)主成分分析中,當給定的協方差矩陣或者相關矩陣的特徵值是唯一的時候,主成分一般是獨特的;而因子分析中因子不是獨特的,可以旋轉得到不到的因子。
(5)在因子分析中,因子個數需要分析者指定(spss)根據一定的條件自動設定,只要是特徵值大於1的因子進入分析),而指 定的因子數量不同而結果不同。在主成分分析中,成分的數量是一定的,一般有幾個變數就有幾個主成分。
4.線性判別分析(lda)
1)lda簡介
(1)lda線性判別分析也是一種經典的降維方法,lda是一種監督學習的降維技術,也就是說它的資料集的每個樣本是有類別輸出的。
(2)這點和pca不同。pca是不考慮樣本類別輸出的無監督降維技術。lda的思想可以用一句話概括,就是「*投影後類內方差最小,類間方差最大*」。要將資料在低維度上進行投影,投影後希望每一種類別資料的投影點盡可能的接近,而不同類別的資料的類別中心之間的距離盡可能的大。
(3)例子:假設我們有兩類資料分別為紅色和藍色,如下圖所示,這些資料特徵是二維的,我們希望將這些資料投影到一維的一條直線,讓每一種類別資料的投影點盡可能的接近,而紅色和藍色資料中心之間的距離盡可能的大。
(4)lda除了可以用於降維以外,還可以用於分類。
乙個常見的lda分類基本思想是假設各個類別的樣本資料符合高斯分布,這樣利用lda進行投影後,可以利用極大似然估計計算各個類別投影資料的均值和方差,進而得到該類別高斯分布的概率密度函式。
當乙個新的樣本到來後,我們可以將它投影,然後將投影後的樣本特徵分別代入各個類別的高斯分布概率密度函式,計算它屬於這個類別的概率,最大的概率對應的類別即為**類別。
2)lda總結
(1)lda演算法既可以用來降維,又可以用來分類,但主要還是用於降維。在進行影象識別相關的資料分析時,lda是乙個有力的工具。
(2)lda的中心思想是最大化類間間隔和最小化類內距離。
(3)lda對資料做了一些很強的假設,儘管這些假設在實際中並不一定完全滿足,但lda已被證明是非常有效的一種降維方法。主要是因為線性模型對雜訊的魯棒性比較好,當表達能力有侷限性,可以通過引入核函式擴充套件lda以處理分布較為複雜的資料。
每個類資料都是高斯分布
各個類的協方差相等
(4)lda的優點
(5)lda的缺點
3)lda與pca的相同點
(1)兩者均可以對資料進行降維。
(2)兩者在降維時均使用了矩陣特徵分解的思想。
(3)兩者都假設資料符合高斯分布。
4)lda與pca的不同點
(1)投影方向不同
pca選擇的是投影後方差最大的方向。pca假設方差越大,資訊量越多,用主要成分來表示原始資料可以去除冗餘的維度,達到降維。
lda選擇的是投影後類內方差小、類間方差大的方向。其用到了類別標籤資訊,為了找到資料中具有判別性的維度,使得原始資料在這些方向上投影後,不同類別盡可能區分開。
(2)lda是有監督降維方法,而pca是無監督的降維方法。
(3)lda降維最多降到k-1的維數(k為類別數),而pca沒有這個限制。
(4)lda除了用於降維還可以用於分類,pca只能用於降維。
(5)在語音識別中應用例子
(6)在人臉識別領域應用例子
參考文獻
[1]. 主成分分析(pca)原理詳解.
[2]. 資料分析之因子分析.
[4]. 【機器學習】lda線性判別分析原理及例項.
資料降維演算法總結
在原始的空間中,包含冗餘資訊以及噪音資訊,在實際應用中總會產生誤差,降低了準確率,我們希望減少冗餘資訊所造成的誤差,提公升識別精度。又或者希望通過降維演算法尋找內部的本質結構特徵。資料降維的目的 維度降低便於視覺化和計算,深層次的含義在於有效資訊的特徵提取以及無用資訊的拋棄。線性對映 pca以及ld...
降維方法總結
對降維效果的評價 比較降維前後學習器的效能 低維可以通過視覺化技術來判斷降維的效果 分類 一 低維嵌入 代表 mds演算法 基本思想 降維的乙個基本思想是,降維前後 保證樣本點的距離相等,即 原始空間中的距離在低維空間得以保持 mds演算法 1 通過距離不變的原理,推導出由高維空間距離矩陣d計算低維...
PCA降維演算法
文章由兩部分構成,第一部分主要講解pca演算法的步驟,第二部分講解pca演算法的原理。那麼首先進入第一部分 pca演算法的步驟 樣本矩陣x的構成 假設待觀察變數有m個,其實相當於乙個資料在m維各維度上的座標,我們的目標是在保證比較資料之間相似性不失真的前提下,將描述資料的維度盡量減小至l維 l樣本矩...