影響回歸模型泛化能力的兩種因素及處理方法

2022-08-24 01:45:10 字數 952 閱讀 3121

在機器學習問題中,我們根絕解決的問題將機器學習演算法歸納為三類:回歸(regression)問題、分類(classification)問題及聚類(clustering)問題。作為機器學習三大解決的三大問題之一的回歸問題,前輩們做了很多深入的研究,尤其是回歸問題的兩類難點問題(多重共線性及特徵選擇),在此隨筆中,我主要根據prml開篇對多項式曲線擬合的試驗,討論影響回歸模型泛化能力的兩種因素及處理方法。

在本書中,作者舉了乙個用多項式回歸擬合例正弦函式f(x)=sin(2∏x)的例子,給定乙個包含10個資料點的資料集 x=(x1,x2,...,x10)t,伴隨帶有隨機雜訊的y的觀測值y=(y1,y2,...,y10)t,下面畫出10個資料點組成的影象:

圖1:由n=10個資料點組成的訓練集的影象,由紅色圓點標記。每個資料點由輸入變數x的觀測及對應的目標

變數y組成,藍色曲線給出了用來生成資料的sin(2∏x)函式。目標是通過新的x值**y值,不需知道藍色曲線。

下面用一種非正式的簡單的多項式函式對資料擬合,多項式如下:

其中,m表示多項式的階數,xj

表示x的j次冪,w0,w1,...wm

表示多項式係數,整體記為w,多項式函式y(x,w)是關於x的多非線性函式,但是是關於w的線性函式,此類回歸問題也被稱為線性回歸.

在一般情況下,採用上述多項式擬合如圖的個資料點的擬合方法有多種(取不同的m值就有不同的擬合多項式)。而在選擇不同的多項式時,該多項式就有不同的係數引數,怎麼確定多項式係數為最優引數呢,一般採用殘差平方和什麼樣的最小準則,及對所有的x估計f(x)與對應的y的誤差平方和最小值,如下:

下面是對剛生成的幾個資料點取不同的誤差平方和的多項式擬合情況:

JMS的兩種程式設計模型

jms訊息機制主要分為兩種模型 ptp模型和pub sub模型。ptp模型 point to point 對點模型 每乙個訊息傳遞給乙個訊息消費者,保證訊息傳遞給訊息消費者,且訊息不會同時被多個消費者接收。如果訊息消費者暫時不在連線範圍內,jms會自動保證訊息不會丟失,直到訊息消費者進入連線,訊息將...

CSS的兩種盒模型

關於css的盒子模型相信學習前端的同學都有所耳聞,因為它太基礎太重要了。提起盒子模型,大家可能會想到content,padding,border,margin這些詞彙,還有也許還會想起盒子模型有兩種,比如ie的盒子模型與w3c的盒子模型,那麼我們怎麼來區分呢?先來看看w3c的盒子模型 w3c 盒子模...

css的兩種盒模型

前言 初學 css 的時候 div 的一些寬高問題經常會引起一些不好理解的問題,這裡做乙個關於css盒模型的分享。問題下面的 可以直接複製出去執行哦 lang en charset utf 8 css盒模型title head type text css content style class co...