李航《統計學習方法》第一次

2021-09-14 07:40:35 字數 2301 閱讀 6060

1.機器學習分類:

監督學習:可以有輸入訓練後得到乙個模式(函式),並由此推斷新的例項。訓練資源是由輸入物件(通常是向量)和預期輸出可一世乙個連續的值(回歸分析)或者是乙個分類標籤(承做分類)。函式輸出應用場景:手寫識別。

半監督學習:一部分訓練示例已經標記,一部分沒有

強化學習:強調如何基於環境而行動,以取得最大化的預期利益。

2.李航《統計學習方法》主要講的是監督學習中的分類問題。

3.對乙個模型,首先是要理解模型、演算法的使用場景,之後推導細節 ,手推模型、演算法。

4.那麼,前期準備是什麼呢?高數的積分、微分、極值等,線代有矩陣運算,求導等,概率裡面有常見分布、條件分布等,以及python基礎!

監督學習的步驟:

監督學習問題的過程:

5.統計學習方法的三要素:方法=模型+策略+演算法

模型:

策略:什麼樣的標準說明這是乙個最優的模型,主要涉及的是損失函式(**值和真實值的差別懲罰)和風險函式。損失函式度量模型一次**的好壞,而風險函式度量度量平均意義下模型**的好壞。

損失函式:越小越好

平方損失函式相比於絕對損失函式對差值更敏感,懲罰力度更強。

6.在假設空間、損失函式以及訓練資料集確定的情況下,按照經驗風險最小化求最優模型就是求解最優化問題。但是當樣本容量很小時,經驗風險最小化學習的效果未必很好,會產生「過擬合」現象。而結構風險最小化就是為了防止過擬合而提出的策略。

7.統計學習的目的就是使得學到的模型不僅對已知資料而且對未知資料都有很好的**能力。

8.那什麼是過擬合呢?

圖4便是過擬合,眾所周知,乙個二次函式可以穿過任意3個點,那麼9次函式可以穿過任意10個點,但是,可見的是在某些點的誤差十分的大,存在嚴重的雜訊,這使得這種擬合曲線對未知資料的**能力往往並不是最好的,也不是可取的。

9.那麼,如何選擇模型?模型選擇的典型方法是正則化,正則化是結構風險最小化策略的實現,是在風險項後面加上乙個正則化項或罰項。正則化項一般是模型複雜度的單調遞增函式,模型越複雜,正則化值就越大。

10.學習方法的泛化能力是指由該方法學習到的模型對未知資料的**能力。現實中採用的最多方法是通過測試誤差來評價學習方法的泛化能力,但是因為資料有限,很可能得到的評價是不可靠,而統計學習理論試圖從理論上對學習方法的泛化能力進行分析。而這其中往往是研究泛化誤差的概率上界進行的。

11.泛化誤差上界的性質:它是樣本容量的函式,當樣本容量增加時,上界趨近於0;它同樣是假設空間容量的函式,假設空間容量越大,模型越難學習,泛化誤差上界就越大。中的不等式左邊是期望風險(泛化誤差),不等式的右邊(泛化誤差上界)第乙個是經驗風險。

12.監督學習方法又可以分為生成方法和判別方法。

13.對於二分類問題常用的評價指標是精確率和召回率。通常關注的類是正類,其他類為負類。

14.標註也是乙個監督學習問題,可以認為標準問題是分類問題的乙個推廣,標註問題又是複雜的結構**問題的簡單形式。

15.回歸是監督學習的另乙個重要問題,回歸用於**輸入變數(自變數)和輸出量(因變數)之間的關係,特別是當輸入變數的值發生變化時,輸出變數的值隨之發生的變化。回歸模型正是表示從輸入變數到輸出變數之間對映的函式,回歸問題的學習等價於函式擬合。回歸問題分為學習和**兩個過程。回歸問題還分為一元回歸和多元回歸(輸入變數的個數),還可以分為線性回歸和非線性回歸(輸入變數和輸出變數之間關係型別既模型的型別)。而回歸學習最常用的損失函式是平方損失函式,在此情況下,可以由著名的最小二乘法求解。

統計學習方法概論 《統計學習方法》李航著

統計學習由 監督學習,非監督學習,半監督學習和強化學習組成。監督學習方法主要包括 分類 標註 與 回歸問題 回歸問題 輸入變數 和 輸出變數 均為連續變數的 問題 分類問題 輸出變數為有限個離散變數的 問題 標註問題 輸入與輸出變數均為變數序列的 問題 統計學習三要素 模型,策略,演算法 損失函式度...

(李航統計學習方法)提公升方法

本文主要包括adaboost和提公升樹,後期會擴充套件到xgboost和lightgbm。boosting通過改變樣本訓練權重,學習多個弱分類器,最後進行線性組合,提高分類效能。兩個著重點 如何改變資料的樣本權重或概率分布 如何將弱分類器整合成強分類器 初始化樣本資料權重,假設樣本權重均勻分布,得到...

《統計學習方法》 李航 學習大綱

最近在學習李航寫的統計學習方法概論,每一章都用xmind理清了思路,括號裡是書裡的公式,第一次寫博文,敬請指教 第一章 統計學習方 第二章 感知機 每個方法其實只需要著重掌握三要素和輸入輸出就可以了,主要看模型 策略和演算法。感知機主要是二類分類的線性分類模型。看到後面會注意感知機和支援向量機的區別...