假設有如下未知的曲線(用虛線畫出表示我們並不真正清楚該曲線的具體方程),因為未知,所以下面稱為「上帝曲線」。在「上帝曲線」的附近會產生一些隨機資料,這就是之後要用到的資料集:
1 「偏差」
我們可以選擇不同複雜度的模型來擬合該資料集,比如線性回歸,或者多項式回歸:
可以看到線性回歸比較簡單,和「上帝曲線」相差較大,也就是「偏差」較大。而多項式回歸河以較好的擬合「上帝曲線」,所以說該模型的「偏差」較小。
2.「方差」
資料集是有隨機性的,除了上一節使用的資料集外,我們還可能得到如右側這樣新的資料集:
在新的資料集上當然也可以運用線性回歸,或者多項式回歸:
3 「欠擬合」和「過擬合」
綜上,可以知道「偏差」和「方差」對機器學習的影響是:
(1)「欠擬合」︰較簡單的模型「偏差」較大,不能對資料集進行很好的擬合,從而與「上帝曲線」相差較大,這在機器學習中稱為「欠擬合」。解決方案是選擇「偏差」小的模型,即複雜度高的模型。
(2)「過擬合」︰複雜的模型,可以較好地擬合當前資料集,但由於「方差」較大,反而和「上帝曲線」相距較遠,這在機器學習中稱為「過擬合」。解決方案是選擇「方差」小的模型,即複雜度低的模型。
所以我們要選擇恰當的複雜度的模型,其「偏差」和「方差」也都適度,才能「適度擬合」:
各種機器學習方法概念
部落格 強化學習 reinforcement learning 所謂強化學習就是智慧型系統從環境到行為對映的學習,以使獎勵訊號 強 化訊號 函式值最大,強化學習不同於連線主義學習中的監督學習,強化學習中由環境提供的強化訊號是對產生動作的好壞作一種評價 通常為標量訊號 而不是告訴強化學習系統rls r...
機器學習基礎 各種學習方式(22) 表徵學習
在歐幾里德空間 例如,nrn 中的向量空間 中是否存在一種符號屬性,可以表示出 任意構建的 原始物件?這被稱為表徵學習 representation learning 例如我們希望找到城市的向量表示,從而可以進行這樣的向量運算 羅馬 義大利 法國 巴黎。機器學習旨在自動地學到從資料的表示 repre...
機器學習入門(三)
今天了解的幾個概念 1 neurogrid 2014年5月13日訊息,美國研究人員日前發明了一種基於人腦構造設計的全新晶元電路板 neurogrid 據悉,neurogrid能夠模擬人腦中的100萬個神經元和數十億個突觸連線,而其運算速度已經達到了現有普通電腦的9000倍之巨。然而,同人類大腦的運算...