目前機器學習等熱門的人工智慧領域使用的演算法大多是統計學的方法,李航老師的《統計學習方法》是一本很不錯的入門統計學習方法的書,在讀這本書的時候,順便寫下筆記,供自己以後參考。在談統計學習方法之前,我想起之前乙個朋友問我:「現在人工智慧領域的演算法都是基於概率嗎?」
我當時想差多就是這個意思吧,大多演算法都是基於統計學的,但是後來發現「統計」不是「概率」
那統計和概率的區別是什麼?
先上一張圖(一圖勝千言)
由此可見,「概率」是已知了模型,**下乙個新資料的結果。「統計」是已知資料,歸納出模型。
舉個生動的例子:在生物課上,,有一道題是看動物的腳,猜該動物的名稱,一考生實在是不會做,憤怒的把試卷撕掉就往外走,老師看見了,抓住他大聲說道:「你哪個班的,這麼囂張」。學生把褲腿一提,說道:「你猜啊,你猜啊!」
統計就是給你黑盒子裡面裝著貓和狗,只讓你看到他們的腿,需要收集所有動物的腿(也就是過去的資料),然後總結這些腿的特徵(總結歸納)。當里的腿出現時,你可以根據之前的總結歸納來判斷出這腿是不是貓的腿。
概率就是我們又拿來了乙個新的動物的腿,通過觀察一系列特徵來判斷是哪種動物。
再回到「現在人工智慧領域的演算法都是基於概率嗎?」這個問題,其實也不然,在統計學習方法中,我們不僅有概率模型,還有非概率模型(如決策函式),這就涉及到統計學習方法的第乙個要素——模型。(強行切入主題:))
統計學習的三要素分別是:模型 ,策略,方法。
模型:
模型即選擇生成模型還是判別模型。這兩種模型不同的地方是目標不同,生成模型是想找到源資料的聯合概率分布,判別模型是要找到條件概率或決策函式。
生成模型和判別模型的細節可以檢視
策略:
選擇乙個合適的損失函式或風險函式,也就是選擇乙個目標函式(優化的目標)
演算法:
這裡就是指優化演算法,包括梯度下降法,牛頓法/擬牛頓法、拉格朗日方法等經典的優化演算法(統計學習的問題有了具體的形式之後就變成了最優化問題)
由上面三要素就可以組成乙個方法,也就是統計學習的方法。
下面有10種最常見的統計學習方法的概括總結
也可一比較上面的每個方法中使用的三要素來加深理解,像樸素貝葉斯是典型的生成模型,邏輯回歸是典型的判別模型。
參考:《統計學習方法》李航 著
《統計學習方法》學習筆記
最近把李航的 統計學習方法 看完了,感覺很不錯,從概論到各個統計方法,由易到難層層推進,每個方法都有詳盡的數學公式推倒,感覺很適合有一定數學功底的人作為機器學習入門來看。可惜本人自幼愚鈍,資質欠佳,以前學的概率論與數理統計的知識都忘得差不多了,看得雲裡霧裡的,前面還好,越到後面越看不明白,遇到不懂的...
統計學習方法筆記 概述
小知識點 法向量 垂直於平面的直線所表示的向量為該平面的法向量 法向量一般是方程的係數,比如 ax by cz d 0,那麼法向量就是 a,b,c 證明如下 一 範數 l0範數 向量中非0元素的個數 l1範數 向量中各元素的絕對值之和 l2範數 向量中各元素的平方和然後求平方根 二 經驗風險與結構化...
統計學習方法 學習筆記(1)
統計學習方法的三要素 模型 策略和演算法,統計學習的物件是資料 方法 模型 策略 演算法。監督學習,也就是利用訓練資料學習乙個模型,在用這個模型對測試樣本進行 而由於訓練資料是由人為提供的,所以稱之為監督學習。1 模型 模型即是假設空間對應的條件概率或者是決策樹函式。2 策略 這裡引入了損失函式和風...