特徵值和特徵向量

2022-09-15 09:30:16 字數 1862 閱讀 5130

**:感謝分享!

首先我們先把特徵值和特徵向量的定義複習一下:

定義: 設a是n階矩陣,如果數λ和n維非零向量x使關係式

……(1)

成立,那麼,這樣的數λ稱為矩陣a的特徵值,非零向量x稱為a的對應於特徵值λ的特徵向量,(1)式還可以寫為:

……(2)

如果想求出矩陣對應的特徵值和特徵向量就是求式(2)的解了。

那麼,問題來了,這個式子要怎麼理解呢?

首先得先弄清矩陣的概念:乙個矩陣代表的是乙個線性變換規則,而乙個矩陣的乘法執行代表的是乙個變換;

比如有乙個矩陣a:

乙個列向量為x為:

乙個矩陣的乘法為:

向量x通過矩陣a這個變化規則就可以變換為向量y了

在幾何上的變換就類似於這樣:

知道了這個就可以從幾何上理解特徵值和特徵向量是什麼意思了,由  

可知:所以,確定了特徵值之後,向量x的變換為:                         

引用《線性代數的幾何意義》的描述:「矩陣乘法對應了乙個變換,是把任意乙個向量變成另乙個方向或長度都大多不同的新向量。在這個變換的過程中,原向量主要發生旋轉、伸縮的變化。如果矩陣對某乙個向量或某些向量只發生伸縮變換,不對這些向量產生旋轉的效果,那麼這些向量就稱為這個矩陣的特徵向量,伸縮的比例就是特徵值。」

首先,理解一下資訊量這個概念

看幾張圖:

如果我們單獨看某乙個維度的話,比如看x1這個維度

可以看到將點投影到x1這個維度上看的話,圖1的資料離散性最高,圖3較低,圖2資料離散性是最低的。資料離散性越大,代表資料在所投影的維度上具有越高的區分度,這個區分度就是資訊量。如果我們用方差來形容資料的離散性的話,就是資料方差越大,表示資料的區分度越高,也就是蘊含的資訊量是越大的。

基於這個知識,如果我們想對資料進行降維的話,比如圖1的兩個維度的資料降成一維,我們可以選擇保留x1這個維度的資料,因為在這個維度上蘊含的資訊量更多。

同理,圖2就可以保留x2這個維度的資料。但是,問題來了,圖3應該保留哪個維度的資料呢?答案是保留哪個維度都不好,都會丟失較大的資訊量。但是,如果我們把圖3的座標軸旋轉一下

比較容易看出,圖3在新的座標軸下就能進行降維了。所以選取正確的座標軸,然後根據各個維度上的資料方差大小,決定保留哪些維度的資料,這樣的做法就是主成分分析的核心思想。

選取正確的座標軸的過程中,我們需要乙個矩陣變換,就類似於這樣:   

也就是:

其實,經過數學上的推導的,我們就可以知道,特徵值對應的特徵向量就是理想中想取得正確的座標軸,而特徵值就等於資料在旋轉之後的座標上對應維度上的方差。

也就是說,直接求出矩陣a的特徵向量得出對應的特徵向量。我們就能找到旋轉後正確的座標軸。這個就是特徵值和特徵向量的乙個實際應用:「得出使資料在各個維度區分度達到最大的座標軸。」

所以,在資料探勘中,就會直接用特徵值來描述對應特徵向量方向上包含的資訊量,而某一特徵值除以所有特徵值的和的值就為:該特徵向量的方差貢獻率(方差貢獻率代表了該維度下蘊含的資訊量的比例)。

通常經過特徵向量變換下的資料被稱為變數的主成分,當前m個主成分累計的方差貢獻率達到乙個較高的百分數(如85%以上)的話,就保留著這m個主成分的資料。實現了對資料進行降維的目的。整個主成分分析的演算法原理也就是這個。

特徵值和特徵向量

在剛開始學的特徵值和特徵向量的時候只是知道了定義和式子,並沒有理解其內在的含義和應用,這段時間整理了相關的內容,跟大家分享一下 首先我們先把特徵值和特徵向量的定義複習一下 定義 設a是n階矩陣,如果數 和n維非零向量x使關係式 成立,那麼,這樣的數 稱為矩陣a的特徵值,非零向量x稱為a的對應於特徵值...

特徵值和特徵向量

特徵向量和特徵值在計算機視覺和機器學習中有許多重要的應用。眾所周知的例子是pca 主成分分析 進行降維或人臉識別是特徵臉。特徵向量和特徵值的乙個有趣應用在我的另一篇有關誤差橢圓的博文中提到。此外,特徵值分解形成協方差矩陣幾何解釋的基礎。在這篇文章中,我將簡單的介紹這個數學概念,並且展示如何手動獲取二...

特徵值和特徵向量

特徵向量和特徵值在計算機視覺和機器學習中有許多重要的應用。眾所周知的例子是pca 主成分分析 進行降維或人臉識別是特徵臉。特徵向量和特徵值的乙個有趣應用在我的另一篇有關誤差橢圓的博文中提到。此外,特徵值分解形成協方差矩陣幾何解釋的基礎。在這篇文章中,我將簡單的介紹這個數學概念,並且展示如何手動獲取二...