學習筆記(第二章1) (機器學習 周志華)

2021-10-05 00:23:20 字數 819 閱讀 8295

這是我第一次在csdn上發帖。想要記錄一下在《機器學習 周志華》一書中遇到的一些自己不了解的問題,最終查閱資料獲得的一些解答。一方面在這裡打卡學習進度,另一方面幫助自己以後查閱。

今天遇到的問題是p/np問題。

在第二章中,提到了我們通過尋求經驗化誤差最小化,就能獲得最優解,這是我們構造性地證明了「p=np」;因此,只要相信"p!=np",過擬合就不可避免。

首先,這段話,我有三個地方不理解:

1、p和np是什麼?

2、p=np是什麼?

3、「p!=np」,為什麼過擬合就不可避免了?

一、所以什麼是p問題/np問題呢?

p問題就是在多項式時間內可以求解的問題。

np問題就是在多項式時間內可以驗證的問題。

1、為什麼這個多項式時間這麼重要呢?

原因就是在計算機領域,人們是有理由相信,多項式時間的問題是可操作的。原因就是我們計算機的計算能力發展的速度很快,我們相信在多項式時間內的問題,在未來是可以被解決的。而非多項式時間的問題,由於時間增長超過計算機能力發展,所以在目前看來,解決的可能性並不是那麼大。

2、為什麼要分成求解問題和驗證問題?

驗證問題不一定很好求解。比如數獨問題。

數獨問題的解是否能在多項式時間內目前還沒有論證。

二、p=np?

這就引出了乙個問題,p問題是不是等價np問題呢?由數獨的例子可以看出,目前還存在np問題不是p問題。

三、與過擬合問題的關係。

首先,分類問題,或者說機器學習問題都是np問題。我們可以很快速地驗證分類結果是否正確。

那如果p=np,那麼多項式可驗證問題,也就是可解問題,那麼過擬合問題肯定是可以避免的。

《機器學習》 周志華 (第二章學習筆記)

誤差 過擬合 已經把訓練樣本自身的一些特點當做了所有潛在樣本都會具有的一般性質,這樣就會導致泛化效能下降,這樣的現象叫做過擬合,與之相對的是 欠擬合 泛化誤差 vs 經驗誤差 留出法 直接將擁有的資料集分成兩個互斥的集合,其中乙個是訓練集,乙個為測試集 交叉驗證法 先將資料集分成k個大小相似的互斥子...

周志華機器學習第二章讀書筆記(二)

1 roc receiver operating characteristic 受試者工作特徵 研究學習器泛化能力 根據學習器的 結果對樣例進行排序,按此順序逐個把樣本作為正例進行 每次計算出兩個重要量的值,得到roc曲線。roc的橫軸是假正例率,縱軸是真正例率。如果乙個學習器的roc曲線被另乙個的...

機器學習 周志華 讀書筆記 課後習題 第二章

錯誤率 分類錯誤的樣本佔樣本總數的比例。e a m 精度 1 a m 訓練誤差 經驗誤差 訓練集上的誤差 泛化誤差 新樣本上的誤差。區分資料集,把資料集分為兩部分,一部分是訓練集s另外一部分是測試集t 乙個資料集分成互斥的兩部分,分別作為訓練集和測試集。可以通過分層取樣的方法,保證兩個資料集的資料分...