均值:描述的是樣本集合的中間點。
方差:描述的是樣本集合的各個樣本點到均值的距離之平均,一般是用來描述一維資料的。
協方差:
是一種用來度量兩個隨機變數關係的統計量。
只能處理二維問題。
計算協方差需要計算均值。
如下式:
方差與協方差的關係
方差是用來度量單個變數 「 自身變異」大小的總體引數,方差越大表明該變數的變異越大
協方差是用來度量兩個變數之間 「協同變異」大小的總體引數,即二個變數相互影響大小的引數,協方差的絕對值越大,則二個變數相互影響越大。
協方差矩陣:
協方差矩陣能處理多維問題;協方差矩陣是乙個對稱的矩陣,而且對角線是各個維度上的方差。協方差矩陣計算的是不同維度之間的協方差,而不是不同樣本之間的。樣本矩陣中若每行是乙個樣本,則每列為乙個維度,所以計算協方差時要按列計算均值。
如果資料是3維,那麼協方差矩陣是:
特徵值與特徵向量
線性變化:
線性變換(線性對映)是在作用於兩個向量空間之間的函式,它保持向量加法和標量乘法的運算,從乙個向量空間變化到另乙個向量空間。實際上線性變換表現出來的就是乙個矩陣。
特徵值和特徵向量是一體的概念:
對於乙個給定的線性變換(矩陣a),它的特徵向量數學描述:經過這個線性變換之後,得到的新向量仍然與原來的
保持在同一條直線上,但其長度也許會改變。乙個特徵向量的長度在該線性變換下縮放的比例(λ)稱為其特徵值(本徵值)。
的作用下,向量
僅僅在尺度上變為原來的
倍。稱
是線性變換
的乙個特徵向量,
是對應的特徵值。
矩陣乘法對應了乙個變換,是把任意乙個向量變成另乙個方向或長度都大多不同的新向量。在這個變換的過程中,原向量主要發生旋轉、伸縮的變化。如果矩陣對某乙個向量或某些向量只發生伸縮變換,不對這些向量產生旋轉的效果,那麼這些向量就稱為這個矩陣的特徵向量,伸縮的比例就是特徵值。
任意給定乙個矩陣a,並不是對所有的向量x它都能拉長(縮短)。凡是能被矩陣a拉長(縮短)的向量就稱為矩陣a的特徵向量(eigenvector);拉長(縮短)的量就是這個特徵向量對應的特徵值(eigenvalue)。
乙個矩陣可能可以拉長(縮短)多個向量,因此它就可能有多個特徵值。對於實對稱矩陣來說,不同特徵值對應的特徵向量必定正交。變換矩陣的所有特徵向量作為空間的基之所以重要,是因為在這些方向上變換矩陣可以拉伸向量而不必扭曲它,使得計算大為簡單。因此特徵值固然重要,但我們的終極目標卻是特徵向量。同一特徵值的任意多個特徵向量的線性組合仍然是a屬於同一特徵值的特徵向量。
顧名思義,特徵值和特徵向量表達了乙個線性變換的特徵。在物理意義上,乙個高維空間的線性變換可以想象是在對乙個向量在各個方向上進行了不同程度的變換,而特徵向量之間是線性無關的,它們對應了最主要的變換方向,同時特徵值表達了相應的變換程度。
具體的說,求特徵向量,就是把矩陣a所代表的空間進行正交分解,使得a的向量集合可以表示為每個向量a在各個特徵向量上的投影長度。我們通常求特徵值和特徵向量即為求出這個矩陣能使哪些向量只發生拉伸,而方向不發生變化,觀察其發生拉伸的程度。這樣做的意義在於,看清乙個矩陣在哪些方面能產生最大的分散度(scatter),減少重疊,意味著更多的資訊被保留下來。
referee:
特徵值和特徵向量的幾何和物理意義
均值 方差 協方差 協方差矩陣 特徵值 特徵向量
均值 描述的是樣本集合的中間點。方差 描述的是樣本集合的各個樣本點到均值的距離之平均,一般是用來描述一維資料的。協方差 是一種用來度量兩個隨機變數關係的統計量。只能處理二維問題。計算協方差需要計算均值。如下式 方差與協方差的關係 方差是用來度量單個變數 自身變異 大小的總體引數,方差越大表明該變數的...
均值 方差 協方差 協方差矩陣 特徵值 特徵向量
均值 描述的是樣本集合的中間點。方差 描述的是樣本集合的各個樣本點到均值的距離之平均,一般是用來描述一維資料的。協方差 是一種用來度量兩個隨機變數關係的統計量。只能處理二維問題。計算協方差需要計算均值。如下式 方差與協方差的關係 方差是用來度量單個變數 自身變異 大小的總體引數,方差越大表明該變數的...
均值 方差 協方差 協方差矩陣 特徵值 特徵向量
均值 描述的是樣本集合的中間點。方差 描述的是樣本集合的各個樣本點到均值的距離之平均,一般是用來描述一維資料的。協方差 是一種用來度量兩個隨機變數關係的統計量。只能處理二維問題。計算協方差需要計算均值。如下式 方差與協方差的關係 方差是用來度量單個變數 自身變異 大小的總體引數,方差越大表明該變數的...