回歸樣條(Regression Splines)

2021-09-25 03:20:05 字數 1261 閱讀 7775

我們之前介紹了線性回歸,在面對非線性問題的時候線性回歸是行不通的,所以就有了多項式回歸,可是多項式回歸也有缺點,比如當多項式的冪較高時,可能特徵的乙個微小變化都會被很大地方法,也就是很容易過擬合,另一方面它是非區域性的,也就是說我改變一下訓練集上某一點的y值,即使其他離他很遠的點也會受到影響。

為了改進多項式回歸的缺點,就有了回歸樣條法(regression splines)(樣條指的是一種分段的低階逼近函式),主要是把訓練集不再堪稱乙個整體,而是把它劃分成乙個個連續區間,劃分的點稱為節點(knot),並用單獨的模型(線性函式或者低階多項式函式,一般稱為分段函式,piecewise function)來擬合。很明顯,節點越多,模型就越靈活。

事實上,如果我們只是把資料劃分乙個個區間然後各自用多項式擬合是不夠的,因為根據結果我們會發現函式影象的整體擬合效果一點都不好,第乙個問題是節點之間是不連續的,所以我們需要加上乙個條件,那就是節點函式值相等。除此之外,還需要節點曲線是平滑的,所以第二個條件是節點一階導數相等,最後,實驗證明,如果節點二階導數也相等,擬合出來的曲線將會更平滑,也會更接近真實的曲線,所以這就是我們對多項式的一些約束條件。

最後還有乙個問題,那就是對於資料邊界(資料的兩側),邊界區域的資料是相對較少的,函式曲線往往容易過擬合,這個問題也存在於樣條中,為了使得多項式能夠更平滑地擴充套件到邊界節點之外,自然樣條(在邊界區域增加乙個線性約束)可以解決這個問題。

再簡單介紹一下節點怎麼決定數量。一種可行的辦法是在資料比較劇烈變化的位置設定節點,第二種是在資料變化複雜的地方多設定節點,另外還可以平均分配節點,最後一種則是更常用的,交叉驗證,針對不同數量的節點,劃分訓練集測試集,分析模型效能,得出最好的節點數。

最後簡單說一下多項式回歸和回歸樣條的比較,一般來說,回歸樣條可以比多項式回歸得到更好的輸出,因為多項式回歸需要更高次的多項式才能得到更好的擬合效果,而回歸樣條因為它的特性,更容易就能獲得更好的擬合效果,而且對區域性的分析比多項式回歸更好,但是我也認為相對的回歸樣條缺少了對整體的一種估計,只是乙個個區域性進行分析。

最後的最後,再說一點,回歸樣條,或者說多樣式樣條,它確實可以解決很多問題,可是理論和實踐都表明直接用最小二乘法求解引數很容易過擬合,為了改進這個過擬合的問題,會在最小二乘函式(損失函式)加上懲罰項,這個就叫做光滑樣條(smoothing splines)。可是,如果把回歸樣條應用在機器學習中,這個操作就是很常規的正則化。所以說,模型的名稱千千萬萬種,一點小變動就可以說是一種新模型,最重要的還是要明白這些模型之間的關聯,看穿模型的本質。

想瀏覽更多關於數學、機器學習、深度學習的內容,可瀏覽本人部落格

機器學習小知識 插值 回歸 樣條曲線

回歸和插值實現的功能都是用來擬合給定的一系列點 points 區別在於 插值 擬合出來的函式曲線需要通過給定的初始點,實現已知函式的初始點,需要知道這些點以外的點的取值的功能,從區域性出發。回歸 不需要通過給定的所有初始點,只需要擬合一條 差不多 的曲線即可,更具有全域性性,依賴於初始經驗模型的設定...

b樣條和三次樣條 樣條曲線

最近在學習軌跡規劃中的軌跡生成,涉及到樣條曲線方面的知識,總結一下。曲線的平滑性和相應的平滑性的評判準則相關,在 1 中,作者採用曲率的平方和曲率導數的平方作為評判準則 其中 是路徑點的方向角。最小化這兩個準則的軌跡分別是圓弧和三階螺旋線,並對在對稱和不對稱情況下如何生成路徑進行了分析,事實表明三階...

b樣條和三次樣條 B樣條 貝塞爾曲線和b樣條曲線

在數學的子學科數值分析裡,b 樣條是樣條曲線一種特殊的表示形式。它是b 樣條基曲線的線性組合。b 樣條是貝茲曲線的一種一般化,可以進一步推廣為非均勻有理b樣.b樣條就相當於乙個函式,這個函式在係數不同時就可以變化成各種曲線形狀.在實際生產中,我們測量得到的是乙個個離散的點,那麼我們要知道相鄰兩個點之...