周志華的《機器學習》第二章的內容概念較多,但理解起來需要補充的內容很多,再次依次對其進行小結。
模型評估對於所要進行實驗測試及研究是非常重要的地位,選擇哪個模型達到的效果會相差很遠,如何進行選擇,如何達到預期的效果是我們每一位學習者和研究者值得去學習和研究的。因此在此章節中提供的評估標準及評估方法、度量標準及比較檢驗的方法講的不是很細,需要大量補充。
誤差和擬合的所涉及的概念
誤差和精度是兩個相對的詞語,誤差是多少,精度就是1-誤差的值
泛化誤差(generalization error)即真實情況下模型的誤差。 模型在測試資料上測試,會得到乙個誤差,叫測試誤差。但其實我們真正想要的是模型在總體上的誤差,這就是泛化誤差。而測試誤差因為取樣的關係,與泛化誤差是有偏差的。此外,泛化誤差也叫out of sample error,這是相對於in sample error講的。in sample error是指模型在訓練資料集上的誤差。
擬合與過擬合、欠擬合
過擬合:在訓練資料上表現良好,在未知資料上**時表現差。太過於刻畫細節,泛化能力差。
欠擬合:在訓練資料和未知資料上表現都很差。模型沒有很好地捕捉到資料特徵,不能夠很好地擬合資料
過擬合:
產生過擬合的原因:
(1) 模型的複雜度太高。比如:網路太深
(2)過多的變數(特徵)
(3)訓練資料非常少。
解決方法:
(1)儘量減少特徵的數量(特徵選擇)
(2)early stopping
(3)資料集擴增
「有時候不是因為演算法好贏了,而是因為擁有更多的資料才贏了。」
(4)dropout
在訓練開始時,我們隨機地「刪除」0.2--0.5的隱層單元,視它們為不存在,經過多次迭代, 直至訓練結束,每次都刪除0.2--0.5的隱層單元。
(5)正則化包括l1、l2
正則化會保留所有的特徵變數,但是會減小特徵變數的數量級。正則化就是使用懲罰項,通過懲罰項,我們可以將一些引數的值變小。通常引數值越小,對應的函式也就越光滑,也就是更加簡單的函式,因此不容易發生過擬合問題。
(6)清洗資料。
欠擬合:
產生欠擬合的原因:
因為模型不夠複雜而無法捕捉資料基本關係,導致模型錯誤的表示資料。
解決辦法:
1)新增其他特徵項
2)新增多項式特徵
例如將線性模型通過新增二次項或者三次項使模型泛化能力更強
3)減少正則化引數
正則化的目的是用來防止過擬合的,但是現在模型出現了欠擬合,則需要減少正則化引數。
1.2.
3.
機器學習之一
一 機器學習是什麼 機器學習不是基於程式設計形成的邏輯推理,而是通過歸納思想得出的相關性結論,與人類通過經驗思考歸納一致。有句話說得很好,歷史往往不一樣,但歷史總是驚人的相似 我們通過對歷史的學習,從歷史中歸納出人生與社會的規律,從而指導我們的下一步工作,這是具有莫大價值的。當代一些人忽視了歷史的本...
Stanford機器學習系列之一 機器學習基本概念
機器學習 arthur samuel,1959 在確定程式設計之外給予計算機學習能力的研究領域。機器學習 tom mitchell,1998 如果電腦程式對於任務t的效能度量p通過經驗e得到了提高,則認為此程式對e進行了學習。監督學習 包括回歸 連續性問題 值或目標變數是連續的 分類 離散性問題 值...
機器學習流程 ML之一
機器學習處理的流程大概如下 那麼,在模型選擇及結果校驗過程中,有如下幾個標準 過擬合就是模型訓練的太好了,在訓練集上能夠非常好的完成目的,但是在測試集上,效果卻很差,通常過擬合是模型引數選擇過多導致,而欠擬合就是模型在測試機和訓練集上表現都不好。欠擬合好處理,而過擬合不好處理,過擬合通過增加引數數量...