從線性空間的角度看,在乙個定義了內積的線性空間裡,對乙個n階
對稱方陣進行特徵分解,就是產生了該空間的n個標準正交基,然後把矩陣投影到這n個基上。n個特徵向量就是n個標準正交基,而特徵值的模則代表矩陣在每個基上的投影長度。特徵值越大,說明矩陣在對應的特徵向量上的方差越大,功率越大,資訊量越多。
(1)應用到最優化中,意思就是對於r的二次型,自變數在這個方向上變化的時候,對函式值的影響最大,也就是該方向上的方向導數最大。
(2)應用到資料探勘中,意思就是最大特徵值對應的特徵向量方向上包含最多的資訊量,如果某幾個特徵值很小,說明這幾個方向資訊量很小,可以用來降維,也就是刪除小特徵值對應方向的資料,只保留大特徵值方向對應的資料,這樣做以後資料量減小,但有用資訊量變化不大。
—————————————舉兩個例子
----------------------------
應用1 二次型最優化問題
二次型,其中r是已知的二階矩陣,r=[1,0.5;0.5,1],x是二維列向量,x=[x1;x2],求y的最小值。
求解很簡單,講一下這個問題與特徵值的關係。
對r特徵分解,特徵向量是[-0.7071;0.7071]和[0.7071;0.7071],對應的特徵值分別是0.5和1.5。
然後把y的等高線圖畫一下
從圖中看,函式值變化最快的方向,也就是曲面最陡峭的方向,歸一化以後是[0.7071;0.7071],嗯哼,這恰好是矩陣r的乙個特徵值,而且它對應的特徵向量是最大的。因為這個問題是二階的,只有兩個特徵向量,所以另乙個特徵向量方向就是曲面最平滑的方向。這一點在分析最優化演算法收斂效能的時候需要用到。
二階問題比較直觀,當r階數公升高時,也是一樣的道理。
應用2 資料降維
(興趣不大的可以跳過問題,直接看後面降維方法。)
機器學習中的分類問題,給出178個葡萄酒樣本,每個樣本含有13個引數,比如酒精度、酸度、鎂含量等,這些樣本屬於3個不同種類的葡萄酒。任務是提取3種葡萄酒的特徵,以便下一次給出乙個新的葡萄酒樣本的時候,能根據已有資料判斷出新樣本是哪一種葡萄酒。
問題詳細描述:
uci machine learning repository: wine data set
訓練樣本資料:
原資料有13維,但這之中含有冗餘,減少資料量最直接的方法就是降維。
做法:把資料集賦給乙個178行13列的矩陣r,它的協方差矩陣
主成分分析法----》pca(principal component analysis)。
下面看結果:
這是不降維時候的分類錯誤率
這是降維以後的分類錯誤率。
結論:降維以後分類錯誤率與不降維的方法相差無幾,但需要處理的資料量減小了一半(不降維需要處理13維,降維後只需要處理6維)。
特徵向量與特徵值
在看線性代數這一部分的時候,真是一頭霧水。雖然明白了特徵值和特徵向量的求法,但總覺得沒有用。在 理解矩陣 一文中,雖然提到了這與矩陣的本質有關,但並未詳細提及,但我知道了一定具有一定的幾何意義。後來,檢視了 特徵向量的幾何意義 一文,才明白了。特別是wikipedia中關於 特徵向量 的文章,終於對...
特徵值與特徵向量
我們知道,矩陣乘法對應了乙個變換,是把任意乙個向量變成另乙個方向或長度都大多不同的新向量。在這個變換的過程中,原向量主要發生旋轉 伸縮的變化。如果矩陣對某乙個向量或某些向量只發生伸縮變換,不對這些向量產生旋轉的效果,那麼這些向量就稱為這個矩陣的特徵向量,伸縮的比例就是特徵值。實際上,上述的一段話既講...
特徵值與特徵向量
矩陣與向量的乘法可以理解為變換 投影,變換分為旋轉變換與伸縮變換,投影可以是低維向高維的投影,也可以是高維向低維的投影。因此,方陣與向量的乘法只有變換操作,乙個行數大於列數的矩陣與向量的乘法包含了變換以及維度的提高,乙個行數小於列數的矩陣與向量的乘法則是維數的降低。方陣的矩陣乘法對應了一種變換,將乙...