特徵值和特徵向量的定義,多角度理解其意義,以及相關重要性質。
第一步扔出定義
需要注意的是特徵向量必須非零,而特徵值可以為零。對於對角矩陣 \(d = \mathrm(d_1,d_2,\cdots,d_n)\),顯然標準基 \(e_i,\, i=1,2,\cdots,n\) 就是 \(d\) 的特徵向量,而 \(e_i\) 對應和特徵值就是 \(d_i\).
定義的式子可以改寫為齊次線性方程組:\(\lambda x-ax=(\lambda i -a)x=0\),如果該方程組有非平凡解,那麼 \(\lambda\) 就是 \(a\) 的乙個特徵值,且 \(\lambda i-a\) 就是奇異的。相反,如果 \(\lambda \in \mathbb\) 且 \(\lambda i-a\) 是奇異的,那麼就存在非零向量 \(x\),使得 $(\lambda i -a)x =0 $,即 \((\lambda,x)\) 是乙個特徵對。
如果 \((\lambda,x)\) 是乙個特徵對,給定非零純量 \(c\), \((\lambda,cx)\) 也是乙個特徵對,通常情況下,我們取 \(c= 1 / \lvert x \rvert _2\),即標準化特徵向量為單位向量:\(\xi=cx\),值得一提的是,標準化情況下特徵向量也並不唯一,\((\lambda,\mathrm^\theta}\xi),\,\forall \theta \in \mathbb\) 都是 \(a\) 的特徵值-特徵向量對。
特徵向量恰好是這樣的非零向量:用 \(a\) 來表示與純量 \(\lambda\) 相乘有相同的結果。
實係數或者復係數 \(k\) 次多項式
\begin
p(t)=a_k t^k +a_t^+\cdots+a_1 t+a_0, \quad a_k \neq 0
\label
\end
此表示式可以拓展到給定的方陣上,即
\begin
p(a)=a_k a^k +a_a^+\cdots+a_1 a+a_0, \quad a_k \neq 0
\end
通用約定 \(a^0=i\), \(k\) 次多項式 \ref 中,如果 \(a_k=1\),那就被說成是首一的,由於 \(a_k \neq 0\),故而 \(a_k^p(t)\) 總是首一的。
由代數基本定理知,次數為 \(k \geqslant 1\) 的任何首一多項式 \ref 可以表示成恰好 \(k\) 個復的或者實的線性因子的乘積
\begin
p(t)=(t-\alpha_1)\cdots(t-\alpha_k)
\end
\(p(t)\) 的這個表示式除了因子的排列順序外是唯一的,由此可知乙個次數 \(k \geqslant 1\) 的多項式至多有 \(k\) 個不同的零點,因為有因子可能會重複。因子 \((t-a_j)\) 重複的次數就是 \(\alpha_j\) 作為 \(p(t)\) 零點的重數。
類似,下面給出 \(p(a)\) 的分解式
\begin
p(a)=(a-\alpha_1 i)\cdots(a-\alpha_k i)
\end
於是 \(p(a)\) 的特徵值與 \(a\) 的特徵值以一種簡單的方式聯絡在一起。
證明:我們有
\begin
p(a)x=a_kakx+a_ax+\cdots+a_1ax+a_0 x, \quad a_k \neq 0
\end
重複應用特徵值-特徵向量方程又有 \(a^jx=a^ax=a^\lambda x=\lambda a^x=\cdots=\lambda^j x\). 從而
\[p(a)x=a_k \lambda^kx+\cdots+a_0 x=(a_k\lambda^k+\cdots+a_0)x=p(\lambda)x
\]反過來,如果 \(\mu\) 是 \(p(a)\) 的乙個特徵值,那麼 \(p(a)-\mu i\) 是奇異的。由於 \(p(t)\) 的次數 \(k\geqslant 1\),故而多項式 \(q(t)=p(t)-\mu\) 的次數 \(k \geqslant 1\),我們就可以將它分解成 \(q(t)=(t-\beta_1)\cdots(t-\beta_k)\) (對某些複數或者實數 \(\beta_1,\cdots,\beta_k\)). 由於 \(p(a)-\mu i=q(a)=(a-\beta_1 i)\cdots (a-\beta_k i)\) 是奇異的,故而它的某個因子 \(a-\beta_j i\) 是奇異的,這就意味著 \(\beta_j\) 是 \(a\) 的特徵值。但是 \(0=q(\beta_j)=p(\beta_j)-\mu\),所以有 \(\mu=p(\beta_j)\).
這個性質非常重要,比如,如果 \(\sigma(a)=\\),那麼我們立馬可以斷定 \(\sigma(a^2)=\\). 但是對於特徵向量不一樣,考慮矩陣 \(a=\begin 0&1 \\ 0&0\end\),顯然 \((0, e_1)\) 是 \(a\) 和 \(a^2\) 的特徵對,\(e_2\) 是 \(a^2\) 的特徵向量卻不是 \(a\) 的特徵向量,這也就是定理逆命題部分只提到了 \(p(a)\) 特徵值的原因。
**證明:** 矩陣 $a$ 是奇異的,當且僅當對某個 $x\neq 0$ 有 $ax=0$. 而這當且僅當對某個 $x \neq 0$ 有 $ax = 0x$,也就是當且僅當 $\lambda =0 $ 是 $a$ 的特徵值時才發生。
**證明:** 如果 $\lambda \in \sigma(a)$,則存在乙個非零向量 $x$,使得 $ax=\lambda x$,從而 $(a+\mu i)x=ax+\mu x=\lambda x+ \mu x=(\lambda+\mu)x$. 於是 $\lambda + \mu \in \sigma(a+\mu i)$. 反過來,如果 $\lambda + \mu \in \sigma(a+\mu i)$,則存在非零向量 $y$,使得 $ay+\mu y=(a+\mu i)y=(\lambda+\mu)y=\lambda y+\mu y$. 於是 $ay=\lambda y$, 從而 $\lambda \in \sigma(a)$.
**證明:** 設 $m$ 是使得向量 $y,ay,a^2 y,\cdots,a^k y$ **線性相關的最小整數** $k$. 那麼有 $m \geqslant 1$(由於 $y \neq 0$),且有 $m \leqslant n$(由於 $\mathbb^n$ 中任意 $n+1$ 個向量都是線性相關的)。設 $a_0,a_1,\cdots,a_m$ 是不完全為零的純量,它們使得
\begin
a_ma^my+a_a^y+\cdots+a_1ay+a_0y=0
\label
\end
如果 $a_m=0$,那麼式 \ref 蘊含向量 $y,ay,a^2 y,\cdots,a^k y$ 線性相關,這與 $m$ 的最小性矛盾,於是 $a_m \neq 0$,我們可以考慮多項式 $p(t)=t^m+(a_/a_m)t^+\cdots+(a_1/a_m)t+(a_0/a_m)$. 恒等式 \ref 確保 $p(a)y=0$,所以 $(0,y)$ 是 $p(a)$ 的乙個特徵對,定理 $1.1$ 就確保 $p(t)$ 的 $m$ 個零點中有乙個是 $a$ 的特徵值。
假設 $\lambda$ 是 $p(t)$ 的乙個零點,它是 $a$ 的乙個特徵值,分解 $p(t)=(t-\lambda)g(t)$,其中 $g(t)$ 是乙個 $m-1$ 次多項式。如果 $g(a)y=0$,則 $m$ 的最小性再次出現矛盾,所以 $g(a)y \neq 0$。但是 $0=p(a)y=(a-\lambda i)(g(a)y)$,所以非零向量 $g(a)y$ 是 $a$ 的乙個與特徵值 $\lambda$ 相伴的特徵向量。
上述定理表明了**每個復矩陣都有非空的譜**,對給定的 $a\in m_n$ 可以求得乙個次數最多為 $n$ 的多項式,它**至少有乙個零點**是 $a$ 的特徵值。
在這裡用 markdown 編輯時
特徵值和特徵向量
在剛開始學的特徵值和特徵向量的時候只是知道了定義和式子,並沒有理解其內在的含義和應用,這段時間整理了相關的內容,跟大家分享一下 首先我們先把特徵值和特徵向量的定義複習一下 定義 設a是n階矩陣,如果數 和n維非零向量x使關係式 成立,那麼,這樣的數 稱為矩陣a的特徵值,非零向量x稱為a的對應於特徵值...
特徵值和特徵向量
特徵向量和特徵值在計算機視覺和機器學習中有許多重要的應用。眾所周知的例子是pca 主成分分析 進行降維或人臉識別是特徵臉。特徵向量和特徵值的乙個有趣應用在我的另一篇有關誤差橢圓的博文中提到。此外,特徵值分解形成協方差矩陣幾何解釋的基礎。在這篇文章中,我將簡單的介紹這個數學概念,並且展示如何手動獲取二...
特徵值和特徵向量
特徵向量和特徵值在計算機視覺和機器學習中有許多重要的應用。眾所周知的例子是pca 主成分分析 進行降維或人臉識別是特徵臉。特徵向量和特徵值的乙個有趣應用在我的另一篇有關誤差橢圓的博文中提到。此外,特徵值分解形成協方差矩陣幾何解釋的基礎。在這篇文章中,我將簡單的介紹這個數學概念,並且展示如何手動獲取二...