機器學習基礎知識篇 《機器學習》周志華著

2021-09-23 14:27:50 字數 1579 閱讀 1140

1.機器學習就是用機器模擬人的學習行為。

2.機器學習學的是資料中的經驗,機器學習的物件是資料,目的是從資料中學習經驗,這個經驗也被稱為模型。

1.泛化能力:學習得到的模型適用於新樣本的能力。

2.增加訓練樣本,得到樣本空間的資訊就越多,可以增強訓練出的模型的泛化能力。

1.什麼是好瓜?在我們不是很確定或者根本不知道什麼是好瓜的時候,可以先做出假設,假設色澤為青綠,根蒂為蜷縮,敲聲為濁響的是好瓜,這就是乙個假設

2.假設空間是由所有可能的假設所組成的集合,例如,在沒有任何知識加入的時候,任何瓜都可能是好瓜。

3.與訓練集一致的假設集合稱為版本空間,例如,若訓練集中只有色澤為青綠,根蒂為蜷縮,敲聲為濁響的才是好瓜,那麼,色澤為青綠,根蒂為蜷縮,敲聲為濁響就是該訓練集的版本空間。

4.顯然,版本空間是樣本空間的乙個子集。

1.機器學習演算法在學習過程中對某種型別假設的偏好,稱為「歸納偏好」。

2.作用:與訓練集一致的假設可能不止乙個,對乙個新到來的瓜,用a假設判斷是好瓜,用b假設判斷是壞瓜,這可能導致根本無法判斷。歸納偏好的作用正在於此,比如我們更偏好a假設,那麼就直接判斷這個新來的瓜是好瓜。

1.過擬合:一種把訓練樣本的自身的一些特點當作了所有潛在樣本都會具有的一般性質的現象,比如用兩片鋸齒形的綠色橢圓樹葉作為訓練樣本,過擬合模型會誤認為樹葉必須有鋸齒。

2.欠擬合:訓練樣本的一般性質尚未學好的現象,比如欠擬合模型會誤認為只要是綠色的都會是樹葉。

3.欠擬合可以通過增強訓練來克服。

4.過擬合則無法徹底避免。

1.交叉驗證法:將資料集通過分層取樣劃分為k個大小相似的互斥子集,每次用k-1個子集的並集作為訓練集,餘下的那個子集作為測試集,可進行k次訓練和測試,最終返回這k個測試結果的均值。

2.交叉驗證法在資料樣本有限,無法獲得新樣本時使用。

1.使用效能度量指標評價。

2.常用的效能指標

(1)錯誤率、精度

(2)查準率、查全率與f1

(3)roc、auc

(4)代價敏感錯誤率與代價曲線

1.偏差度量了學習演算法的期望**與真實結果的偏離程度,即刻畫了學習演算法本身的擬合能力。

2.方差度量了同樣大小的訓練集的變動所導致的學習效能的變化,即刻畫了資料擾動所造成的影響。

3.過擬合對應偏差很小,方差很大的情況。

4.欠擬合對應偏差很大,方差很小的情況。

1.原始資料經過資料標準化處理後,使各指標處於同一數量級。

2.適合進行綜合對比評價。

3.常用的歸一化方法

(1) 線性函式歸一化:線性函式將原始資料線性化的方法轉換到[0 1]的範圍。

(2) 0均值歸一化:0均值歸一化方法將原始資料集歸一化為均值為0、方差1的資料集。

1.梯度下降法:梯度可以反映函式下降的陡峭程度,梯度下降演算法就是沿著函式最陡峭的方向,即梯度最小的方向往前走一定步長,反覆此過程直至找到最優解。

2.隨機梯度下降:隨機梯度下降是每次迭代使用乙個樣本來對引數進行更新,使得訓練速度加快,但準確度會下降。

3.小批量隨機梯度下降:為了兼顧穩定下降和隨機特性以及小計算量。每次迭代選取總體樣本中的一小批樣本計算損失函式,但選取的樣本數不是很好確定。

機器學習基礎知識

machine learning的主要兩個應用方面 人工智慧 資料科學。什麼是人工智慧 artificial intelligence ai是不確定性管理 uncertainty management 的體現 ai what to do when you don t know what to do ...

機器學習基礎知識

機器學習基礎知識 1 誤差 學習器實際 輸出與樣本的真實輸出之間的差異稱為 誤差 有經驗誤差 也成訓練誤差 和泛化誤差。我們實際需要的是泛化誤差較小的學習器。2 過擬合與欠擬合 過擬合 學習能力太過強大,把訓練樣本中的特殊特性當作一般特性導致泛化效能下降。欠擬合 學習能力低下,不能很好的 輸出。3 ...

機器學習基礎知識

為了解決任務t,設計一段程式,從經驗e中學習,達到效能度量值p,當且僅當有了經驗e後,經過p評判,程式在處理t時的效能得到提公升1.特徵表示 2.選擇模型 3.訓練模型 4.模型評估 1.模型 2.策略 3.演算法 1.有監督學習 1.1 分類 樣本標籤屬於離散變數 判別模型 1.2 回歸 樣本標籤...