統計學習三要素包括:模型、策略和方法。在策略這一要素中,根據什麼來選擇我們假設空間(模型空間)中的模型呢?風險函式和經驗風險起了決定性作用。風險函式和經驗函式從數學上理解,都是在求一種期望,都是對損失函式求的期望,只是求解的方法不一樣。下面就分別理清一下兩者的概念。
由於模型的輸入、輸出(x,y)是隨機變數,遵循聯合概率分布p(x,y),所以損失函式的期望是:
記作rexp,風險函式又叫期望損失。
期望風險越小的模型越好。從函式中我們可以看到,我們使用了聯合概率分布p(x,y)來求解。而實際中p(x,y)是未知的,如果我們都已經知道了聯合概率分布,那我們就不要再通過風險函式來選去最有模型了,因為我們可以直接利用貝葉斯概率進行求解得到條件概率分布p(y|x)。
給定乙個訓練集 t=,模型f(x)關於訓練資料集的平均損失成為經驗風險,也叫經驗損失,記作remp:
期望風險是模型關於聯合分布的期望損失,個人理解為需要對整個資料集(包括訓練資料和測試資料)求期望損失。經驗風險是模型關於訓練樣本集的平均損失。根據大數定律,當樣本容量n趨於無窮大時,經驗風險趨於期望風險。所以我們在資料量很大時,可以通過經驗風險來求期望風險。
統計學基礎 置信風險,經驗風險,結構風險
支援向量機方法是建立在統計學習理論的vc 維理論和結構風險最小原理基礎上。置信風險 分類器對 未知樣本進行分類,得到的誤差。經驗風險 訓練好的分類器,對訓練樣本重新分類得到的誤差。即樣本誤差 結構風險 置信風險 經驗風險 結構風險最小化就是為了防止過擬合而提出來的策略,貝葉斯估計中最大後驗概率估計就...
監督學習簡介 損失函式與風險函式
監督學習 supervised learning 的任務是通過訓練資料學習乙個模型,使模型能夠對任意未知的輸入,對其相應的輸出做出乙個好的 值與真實值相近 下面介紹一下監督學習中常用的幾個空間 1.在監督學習中,將輸入與輸出所有可能取值的集合分別稱為輸入空間和輸出空間。2.每個具體的輸入是乙個例項,...
機器學習必知必會 損失函式與風險函式
引入 我們需要一定的準則來評估不同機器學習模型的優劣,這就引申出損失函式和風險函式。損失函式 評估模型單次 的好壞 風險函式 度量平均意義下模型的好壞 損失函式的定義 監督學習是在假設空間f ff中選取模型f ff作為決策函式,對於給定的輸入x xx,由f x f x f x 給出相應的輸出y yy...