昨天聽了實驗室師兄的報告,會後詢問他看es
l 的事宜。師兄說你不實現書中的演算法就是偷懶,想想確實是這樣。
多維空間的表示式
如下:
mi在高維空間中,區域性回歸方法作用不佳。因為當維度公升高時,我們沒有辦法同時滿足區域性性和客觀數量的樣本數。區域性性是用距離來度量的,保證區域性性才能保證低偏差。而數量可觀的樣本數才能保證低方差。nβ(x
0)∑i
=1nk
λ(x0
,xi)
(yi−
b(xi
)tβ(
x0))
2kλ(
x0,x
)=d(
||x−
x0||
λ)||⋅
||是歐幾里得範數,也就是 |
|x||
=|x1
|2+.
..+|
xp|2
−−−−
−−−−
−−−−
−√,書中說分數會趨向於 1
,我的理解是在高維空間中,各個
點分布稀疏,距離較遠,導致||
x−x0
||λ趨向於1。這時使用核函式不能有效區分點,起不了多大作用。
注:pr
edic
tor 是指樣本變數個數?
當維數較大,樣本較少時,區域性回歸作用不佳。如果我們能夠對模型的結構做一些假設,或許能夠改善這個問題。
kλ,a(x
0,x)
=d((
x−x0
)ta(
x−x0
)λ)
我們可以對 a
施加一些限制,來達到我們的目的。譬如可以增大某一變數的權重。這樣講,我們不僅可以對距離不同的點施加權重,還可以依據需要對不同的屬性新增權重。
注:方差分析(anova)方差分析是從觀測變數的方差入手,研究諸多變數中哪些控制變數是對觀測變數有顯著影響的變數。
方差分析的基本思想是:通過分析研究不同**的變異對總變異的貢獻大小,從而確定可控因素對研究結果影響力的大小。
這個坑有點大,要專門學習;
l(β(x0
))=∑
i=1n
kλ(x
0,xi
)l(y
i,xt
iβ(x
0))multiclass liner logistic regressionpr
(g=j
|x=x
)=eβ
j0+β
tjx1
+∑j−
1k=1
eβk0
+βtk
x
local log-likelihood
這公式還沒有想明白(x
i−x0
) ∑
i=1n
kλ(x
0,xi
)
the fitted posterior probilitiespr
^(g=
j|x=
x0)=
eβ^j
0(x0
)1+∑
j−1k
=1eβ
^k0(
x0)
核方法原理
1.無力的線性分類器 一般情況下,我們考慮構造乙個線性分類器來解決問題。但是實際中,線性分類器的效果達不到要求,因為大部分資料都不是線性可分的,如下面這幅圖。一種改進的方法是把多個弱的線性分類器組合得到乙個強分類器,如決策樹,booting方法 另乙個種方法就是接下來要說的高維投影。2.高維線性可分...
核方法的主要思想
2012年07月05日 16 31 02 閱讀數 56376 本文對核方法 kernel method 進行簡要的介紹。核方法的主要思想是基於這樣乙個假設 在低維空間中不能線性分割的點集,通過轉化為高維空間中的點集時,很有可能變為線性可分的 例如下圖 左圖的兩類資料要想在一維空間上線性分開是不可能的...
通俗理解核方法 kernel function
首先通俗理解一下核函式存在的意義,按照其他一些官方上的解釋,核函式就是為了將低維空間上的點對映到高維空間上,是為了方便將不能用線性分割的資料轉化成可以線性分割的資料 白話解釋 如圖所示 如圖所示,左面的圖為為原空間,右面的圖為對映後的空間,從圖中也可以看出來,左面圖要用乙個橢圓才能將兩個類別分割開來...