監督學習簡介 損失函式與風險函式

2021-09-25 03:11:45 字數 1982 閱讀 7772

監督學習(supervised learning)的任務是通過訓練資料學習乙個模型,使模型能夠對任意未知的輸入,對其相應的輸出做出乙個好的**(**值與真實值相近)。

下面介紹一下監督學習中常用的幾個空間:

1.在監督學習中,將輸入與輸出所有可能取值的集合分別稱為輸入空間輸出空間

2.每個具體的輸入是乙個例項,通常有特徵向量表示,所有特徵向量存在的空間稱為特徵空間,特徵空間中的每一維對應乙個特徵。有時假設輸入空間與輸出空間為相同的空間,對它們不予區分;有時假設輸入空間與輸出空間為不同的空間,將例項從輸入空間對映到特徵空間。模型實際上都是定義在特徵空間上的。

3.監督學習的目的在於學習乙個由輸入到輸出的對映,這一對映由模型來表示。換句話說,學習的目的在於找到最好的這樣的模型。模型屬於由輸入空間到輸出空間的對映的集合,這個集合就是假設空間

統計學習方法由三要素構成,可以簡單地表示為:方法 = 模型+策略+演算法

由於模型和演算法比較簡單,這裡就不一帶而過,主要對策略進行介紹:

在監督學習中,模型就是所要學習的條件概率分布和決策函式。

評價乙個模型的好壞,就要引入今天的主角:損失函式和風險函式

損失函式又稱代價函式,是**值y(x)與真實值y的非負實值函式,即為l(y,f(x))。統計學習中常用的損失函式有如下幾種:

(1)0-1損失函式

(2)平方損失函式

(3)絕對損失函式

(4)對數損失函式(對數似然損失函式)

根據名字我們就可以知道損失函式的值肯定越小,模型就越好。

但是由於模型的輸入、輸出是隨機變數(x,y),遵循著聯合概率分布p(x,y),所以損失函式的期望是:

這就是理論上模型f(x)關於聯合分布p(x,y)的平均損失函式,稱為期望風險或期望損失

但是由於實際問題中聯合分布概率p(x,y)是未知的,因此風險函式無法直接求得。因此引入了經驗風險或經驗損失,記為:

其中n為馴良樣本數,可以看出經驗風險是訓練樣本集的平均損失。根據大數定律,當n趨於無窮時,經驗風險趨近於期望風險。

但是經驗風險同樣存在問題:當樣本容量較小時,經驗風險最小化並不一定能夠得到乙個好的模型,很可以出現「過擬合問題」,過擬合問題簡單講就是訓練的模型只能較好的**訓練樣本中的資料,但是對未知的**資料效果不好

同樣為了解決過擬合問題,提出了結構風險或結構損失,記為:

我們可以看出結構風險其實就是在經驗風險後面加了一項,但是就是這一項會帶來很大的變化。這一項叫做正則化項,在今後的學習中我們還會經常接觸這一概念,正則化項的加入可以防止模型出現過擬合現象。

下面我們簡單的講解一下正則化項的作用:正則化項中的j(f)表示的模型的複雜度函式,函式越複雜,j(f)越大。當最小化經驗風險時,常常會使模型變得複雜,但是加入正則化項後,正則化項變大,會限制模型變複雜,因此結構風險綜合經驗風險和模型複雜度,保證模型盡量簡單的情況下,使經驗風險最小化。

演算法是指學習模型的具體計算方法,其實就是求解模型最優解的方法。

今天就講解這些,希望大家能夠有所收穫~

監督學習和無監督學習 監督學習與非監督學習

監督學習 supervised learning 的任務是學習乙個模型,使模型能夠對任意給定的輸入,對其相應的輸出做出乙個好的 即 利用訓練資料集學習乙個模型,再用模型對測試樣本集進行 例如kaggle上的鐵達尼號比賽。官方提供旅客資料 資料集1 姓名,年齡,性別,社會經濟階層,是否生存等 要求參賽...

無監督學習與監督學習

1.無監督和有監督的理解方法有很多,主要可以從以下幾方面來理解 1 無監督與監督學習的區別在於乙個無教學值,乙個有教學值。但是,個人認為他們的區別在於無監督學習一般是採用聚簇等演算法來分類不同樣本。而監督學習一般是利用教學值與實際輸出值產生的誤差,進行誤差反向傳播修改權值來完成網路修正的。但是無監督...

監督學習與無監督學習

監督學習 監督學習是指我們給演算法乙個資料集,其中包含了正確答案。也就是說我們給它乙個房價資料集,在這個資料集中的每個樣本,我們都給出正確的 即這個房子實際賣價,演算法的目的就是給出更多的正確答案,輸入和輸出都是有參照的,根據參照,給定乙個新的輸入,新的輸出。如房價 給定某地房子大小和房價的資料,根...