什麼是欠擬合現象 什麼是過擬合?什麼是欠擬合?

2021-10-13 11:26:10 字數 2185 閱讀 1312

過擬合:1)簡單理解就是訓練樣本的得到的輸出和期望輸出基本一致,但是樣本輸出和測試樣本的期望輸出相差卻很大 。2)為了得到一致假設而使假設變得過度複雜稱為過擬合。想像某種學習產生了乙個過擬合的分類器,這個分類器能夠百分之百的正確分類樣本資料(即再拿樣本中的文件來給它,它絕對不會分錯),但也就為了能夠對樣本完全正確的分類,使得它的構造如此精細複雜,規則如此嚴格,以至於任何與樣本資料稍有不同的文件它全都認為不屬於這個類別!

其實不完全是雜訊和假規律會造成過擬合。

(1)打個形象的比方,給一群天鵝讓機器來學習天鵝的特徵,經過訓練後,知道了天鵝是有翅膀的,天鵝的嘴巴是長長的彎曲的,天鵝的脖子是長長的有點曲度,天鵝的整個體型像乙個「2」且略大於鴨子.這時候你的機器已經基本能區別天鵝和其他動物了。

(2)然後,很不巧你的天鵝全是白色的,於是機器經過學習後,會認為天鵝的羽毛都是白的,以後看到羽毛是黑的天鵝就會認為那不是天鵝.

(3)好,來分析一下上面這個例子:(1)中的規律都是對的,所有的天鵝都有的特徵,是全域性特徵;然而,(2)中的規律:天鵝的羽毛是白的.這實際上並不是所有天鵝都有的特徵,只是區域性樣本的特徵。機器在學習全域性特徵的同時,又學習了區域性特徵,這才導致了不能識別黑天鵝的情況.

所以:(1)對於機器來說,在使用學習演算法學習資料的特徵的時候,樣本資料的特徵可以分為區域性特徵和全域性特徵,全域性特徵就是任何你想學習的那個概念所對應的資料都具備的特徵,而區域性特徵則是你用來訓練機器的樣本裡頭的資料專有的特徵.

(2)在學習演算法的作用下,機器在學習過程中是無法區別區域性特徵和全域性特徵的,於是機器在完成學習後,除了學習到了資料的全域性特徵,也可能習得一部分區域性特徵,而習得的區域性特徵比重越多,那麼新樣本中不具有這些區域性特徵但具有所有全域性特徵的樣本也越多,於是機器無法正確識別符合概念定義的「正確」樣本的機率也會上公升,也就是所謂的「泛化性」變差,這是過擬合會造成的最大問題.

(3)所謂過擬合,就是指把學習進行的太徹底,把樣本資料的所有特徵幾乎都習得了,於是機器學到了過多的區域性特徵,過多的由於雜訊帶來的假特徵,造成模型的「泛化性」和識別正確率幾乎達到谷點,於是你用你的機器識別新的樣本的時候會發現就沒幾個是正確識別的.

(4)解決過擬合的方法,其基本原理就是限制機器的學習,使機器學習特徵時學得不那麼徹底,因此這樣就可以降低機器學到區域性特徵和錯誤特徵的機率,使得識別正確率得到優化.

(5)從上面的分析可以看出,要防止過擬合,訓練資料的選取也是很關鍵的,良好的訓練資料本身的區域性特徵應盡可能少,雜訊也盡可能小。

舉個物理學上的段子(**他人博文),費公尺的話就是乙個非常直觀的理解:

2023年春天,戴森和自己的學生利用贗標介子理論計算了介子與質子的散射截面,得到了與費公尺的實驗觀測值十分相符的結果。然而該理論需要4個自由引數,費公尺很不屑,講了一句日後很著名的話:「我記得我的朋友約翰·馮·諾依曼(john von neumann)曾經說過,用四個引數我可以擬合出一頭大象,而用五個引數我可以讓它的鼻子擺動。」

有趣的是,2023年6月,尤根·邁爾(jurgen mayer)等三位德國分子生物學家在《美國物理學期刊》(american journal of physics)發表了題為「用四個復引數畫出一頭大象」的**。他們發現,利用四個復引數可以大致勾勒出大象的形態,再引入乙個復引數則可以讓大象的鼻子擺動起來。

再例如:好比你想學習追妹子。

先找你表妹問喜歡什麼,表妹說她喜歡乾淨帥氣的男生,還說她喜歡周杰倫,喜歡火鍋,喜歡酸菜魚,合計一百條規矩。你規規矩矩地按照要求學習,終於符合表妹的一切要求,0 error,訓練完成,超級自信準備出去試試追個妹子。

可是換了個妹子,發現學到的似乎沒想象中有用。第二個妹子只要你乾淨帥氣。後面的九十八條她都不care,她甚至討厭吃火鍋,那後面98條只會增加誤差。這就過擬合了。

怎麼防止過擬合呢?應該用cross validation,交叉比對。

解釋起來就是,你在你表妹那兒學到的東西,在你表姐那兒測試一下對不對。在你表姐那兒學到的,在你二姐那測試一下。來來回回用不同的測試物件和訓練物件做交叉比對。這樣學到規律就不會過擬合啦~

還如:想起了以前看過的乙個笑話

乙個非洲酋長到倫敦訪問,一群記者在機場截住了他。

早上好,酋長先生", 其中一人問道:你的路途舒適嗎?

酋長發出了一連串刺耳的聲音哄、哼、啊、吱、嘶嘶,

然後用純正的英語說 道 :是的,非常地舒適。

那麼!您準備在這裡待多久?

他發出了同樣的一連串噪音,

然後答:大約三星期,我想。

酋長,告訴我,你是在哪學的這樣流利的英語?迷惑不解的記者問。

又是一陣哄、吭、啊、吱、嘶嘶聲,

什麼是欠擬合現象 過擬合 欠擬合與正則化

在機器學習模型的訓練過程中,經常會發生過擬合 overfitting 欠擬合 underfitting 的現象。那這二者究竟為何物呢?過擬合,通俗點說,就是我們的模型對資料模擬的太好了,訓練集中的資料幾乎都被完美 有人就說了,我 的完美也有錯嗎?是的,你有錯。因為我們的目標並不是看你訓練集中的資料 ...

什麼是過擬合?

過擬合很好理解,今天在知乎上看到eyounx這麼解釋,挺形象的,大致是這麼個說法 在機器學習中,我們提高了在訓練資料集上的表現力時,在測試資料集上的表現力反而下降了,這就是過擬合。過擬合發生的本質原因,是由於監督學習的不適定性。比如我們再學習線性代數時,給出n個線性無關的方程,我們可以解出來n個變數...

什麼是過擬合

過擬合很好理解,今天在知乎上看到eyounx這麼解釋,挺形象的,大致是這麼個說法 在機器學習中,我們提高了在訓練資料集上的表現力時,在測試資料集上的表現力反而下降了,這就是過擬合。過擬合發生的本質原因,是由於監督學習的不適定性。比如我們再學習線性代數時,給出n個線性無關的方程,我們可以解出來n個變數...