統計學習是一門既有趣又枯燥的概念。有趣在於研究的結果往往能夠對我們有啟發性的作用,枯燥在於我們在學習它的時候是需要花費不少時間的,對於一些概念的理解,對於模型的選擇等等都是一大堆的數學公式,剛剛入門的我們往往覺得這裡有些無趣。
統計學習具有很多專業性詞彙,在國內目前的教材普遍上不夠優秀的情況下,閱讀國外的書籍是極有必要的,然而如果對英語不太熟悉的話,讀起來也是很費時間的,所以從個人角度出發的話,推薦先讀一本中文的入門書籍,也就是我手上的這本李航先生編寫的統計學習方法了。
如下我針對這本書的第一章做乙個總結
1.統計學習
統計學習分為監督學習、非監督學習、半監督學習、強化學習等。初入門的菜鳥比如我最開始研究的應該就是這裡的監督學習了。
2.監督學習
也稱有指導學習,即有結果變數指導學習過程,一般使用分類、回歸等演算法實現。
3.統計學習三要素
模型、策略、演算法
4.模型評估與模型選擇
這是乙個比較重要的概念了,比如我們在實現目標的時候一般會提出多種方案,或者說是多種模型,那麼怎麼選擇模型呢?這個時候就需要理論指導實踐了,主要涉及到損失函式和過擬合,模型複雜度等概念。
5.正則化與交叉驗證
正則化是選擇模型的一種方法,就是對最小化經驗誤差函式上加約束,這種約束可以理解為先驗知識。交叉驗證則是通過把資料集分為訓練集、測試集、驗證集(一般沒有用)來進行模型的選擇。
6.泛化能力
所謂泛化能力,是指學習到的模型對未知資料的**能力。一般使用測試誤差來評價一種模型的泛化能力。
7.生成模型與判別模型
由資料學習聯合概率密度分布p(x,y),然後求出條件概率分布p(y|x)作為**的模型,即生成模型:p(y|x)= p(x,y)/ p(x)。
由資料直接學習決策函式y=f(x)或者條件概率分布p(y|x)作為**的模型,即判別模型。
8.分類問題
監督學習的核心問題之一,從字面上即可理解。分類的方法有:knn,感知機,樸素貝葉斯,決策樹,logistic regression等。
9.標註問題
可以看做是分類問題的一種推廣,標註問題的輸入時乙個觀測序列,輸出時乙個標記序列或狀態序列。
10.回歸問題
回歸也是監督學習的核心問題之一,用於**輸入和輸出之間的關係。可以分為一元回歸和多元回歸。
統計學習方法 1 統計學習方法概論
統計學習的主要特點是 1 統計學習以計算機及網路為平台,是建立在計算機及網路之上的 2 統計學習以資料為研究物件,是資料驅動的學科 3 統計學習的目的是對資料進行 與分析 4 統計學習以方法為中心,統計學習方法構建模型並應用模型進行 與分析 5 統計學習是概率論 統計學 資訊理論 計算理論 最優化理...
統計學習方法概論
這篇文章是對李航 統計學習方法 第一章的乙個回顧,主要是希望對統計學習基本概念 方法做乙個濃縮的總結,希望能對像我一樣的初學者有所幫助。假如有某些地方講的不對的,可以指明,以期促進。統計學習概念 關於計算機基於資料構建概率統計模型並運用模型進行資料 與分析的一門科學。它以計算機及網路為平台,以資料為...
統計學習方法概論
本文是學習李航寫的 統計學習方法 一書第一章 統計學習方法概論 所做的乙個筆記,主要就是對第一章的總結。1.統計學習 統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科,統計學習也稱統計機器學習。由此可以看出統計學習的研究物件是資料,目的是對資料進行 與分析。同時,統...