這個筆記是北大那位老師課程的學習筆記,講的概念淺顯易懂,非常有利於我們掌握基本的概念,從而掌握相關的技術。
兩個矩陣相似:兩個矩陣特徵值一樣。
兩個矩陣合同:矩一樣,就是個數一樣。
#高斯分布的特性
知道μ 和σ
\mu 和\sigma
μ和σ就可以確定這個分布,是它的資訊量。
學習的是空間區域性點之間的關係。
the multinomial disterimim
multimonomial(theorm)
let k and n be positive integers.let a be the set of vector x‾=
(x1,
..,x
k)
\overline x=(x_1,..,x_k)
x=(x1
,..,
xk)
such that each x
ix_i
xi is a nonequlive integer and xi=
n\quad x_i =n
xi=
n,then,dor any real n
1n_1
n1when p1,
...,
pk
p_1,...,p_k
p1,..
.,pk(p
1...
+pk)
n=ni
=1n!
2x1!
...x
n!pi
k...
pkxk
(p_1...+p_k )^n=\quad \fracp_i^k...p_k^
(p1..
.+pk
)n=
ni=1
x1!
...x
n!n
!2p
ik.
..pk
xk
機器學習導論(張志華) 條件期望
這個筆記是北大那位老師課程的學習筆記,講的概念淺顯易懂,非常有利於我們掌握基本的概念,從而掌握相關的技術。這節課主要講的是常用統計分布裡的條件期望。x 1n i 1na i overline frac quad a i x n1 i 1n ai 樣本矩陣 p u k 1 p u k sigma 1 ...
張志華 統計機器學習
第一講 頻率派 貝葉斯學派 首先生成資料的模型服從一種未知的分布,不同於頻率派把模型中的引數當作常數,而是把模型中的引數當作乙個隨機變數,引數服從我們給定的某一種先驗分布,當真實的生成資料來了的時候,我們就可以根據後驗概率最大化來判斷服從已知先驗分布的引數在模型中應該怎樣取值。對概率取log之後的概...
機器學習中的數學 多項式分布及其共軛分布
二元變數是用來描述只有兩種可能值的量,而當我們遇到一種離散變數,其可以有k種可能的狀態。我們可以使用乙個k維的向量x表示,其中只有一維xk為1,其餘為0。對應於xk 1的引數為 k,表示xk發生時的概率。其分布可以看做是伯努利分布的一般化。現在我們考慮n個獨立的觀測d 得到其似然函式。如圖 現在我們...