通常係數w0從正則化項中省略,因為包含w0會使結果依賴於目標變數原點的選擇。w0也可以被包含在正則化項中,但是必須有自己的正則化係數。
在高斯雜訊的假設下,平方和誤差函式是最大化似然函式的乙個自然結果
最大化後驗概率等價於最小化正則化的平方和誤差函式
期望損失= 偏置2 + 方差 + 雜訊
等價核,通過
對訓練集裡目標值進行線性組合做**,被稱為線性平滑
hessian矩陣正定,函式是凸函式
如果class conditional distribution是具有相同的協方差矩陣的高斯分布,則可推出後驗概率公式中,二類(sigmoid)和多類(softmax),啟用函式裡是輸入x的線性形式
如果假設目標變數的條件分布來自於指數族分布,
對應的啟用函式選為標準鏈結函式(canonical link function),則
資料點n對誤差函式的貢獻關於引數向量w求導數的形式為「誤差」yn-tn
特徵向量ϕn的乘積,其中
yn = wtϕn
使用softmax作為啟用函式,當w成比例放大時,誤差函式不變,所以誤差函式在權空間的某些方向上是常數。如果給誤差函式加乙個恰當的正則化項,就能避免這個問題
偏置不出現在神經網路的正則化項中
應對神經網路過擬合的方法:正則化(
不滿足神經網路的linear transformation invariance要求
),早停止
神經網路應對不變性:變化輸入,增加對變換的正則化項,抽取變換下不發生變化的特徵,把不變性整合到神經網路的構建中(區域性接收場和共享權值)
svm是乙個
discriminant function(
discriminant function、
discriminant model、
generative model
),但區別於高斯過程,svm訓練後只需要儲存部分資料(support vector),是稀疏的
rvm是乙個discriminant model,訓練得到後驗概率。
rvm得到的結果一般比svm更稀疏,因此更加有利prediction的效率。
指數損失函式(adaboost)和交叉熵損失函式(softmax、logistic)對比:指數損失函式對負的t*y(x)懲罰較大(指數增長),區別於交叉熵損失函式的線性增長。所以指數損失函式對異常點不魯棒。而且指數損失函式不能表示成概率模型的似然函式,也無法推廣到多類。
知識點記錄
1 jensen不等式 jensen不等式表述如下 如果f是凸函式,x是隨機變數,那麼 特別地,如果f是嚴格凸函式,那麼 e f x f e x 當且僅當p x e x 1,也就是說x是常量。2 unet結構,卷積的三種模式 full,same,valid 其實這三種不同模式是對卷積核移動範圍的不同...
記錄知識點
03d 輸出三位寬度的整數,不足時前補0 3d 輸出三位寬度的整數,不足時後補空格 3d 輸出三位寬度的整數,不足時前補空格 d 輸出整數 未指定寬度,以實際寬度輸出 floor x 為1的值範圍是 1,2 而floor x 0.5 為1的範圍是 0.5,1.5 四捨五入 c語言函式總結大全 例如 ...
知識點記錄
資料結構與演算法 目的就是 達到 速度快和空間省 時間複雜度 細緻分析每一行 執行的次數,核心 執行次數的 n 的量級,就是整段要分析 的時間複雜度 加法法則 乘法法則 巢狀迴圈 複雜度量級,我們可以粗略地分為兩類,多項式量級和非多項式量級。其中,非多項式量級只有兩個 o 2n 和 o n 當資料規...