《統計學習方法》學習筆記

2021-06-28 06:50:20 字數 1100 閱讀 7770

最近把李航的《統計學習方法》看完了,感覺很不錯,從概論到各個統計方法,由易到難層層推進,每個方法都有詳盡的數學公式推倒,感覺很適合有一定數學功底的人作為機器學習入門來看。可惜本人自幼愚鈍,資質欠佳,以前學的概率論與數理統計的知識都忘得差不多了,看得雲裡霧裡的,前面還好,越到後面越看不明白,遇到不懂的就上網查資料、翻書。好歹囫圇吞棗的全部看完了,也是收穫頗豐。

(以下內容純屬本人胡謅的,請專業人士馬上撤離,以免傷及無辜。注意,這不是演習!!!)

前面幾個方法都還比較簡單,感知機、k近鄰法、樸素貝葉斯和決策樹,連我這種人都看明白了,但還有一些深層次的東西沒有挖掘出來,想深究的朋友可以去看看相關的**。這幾個方法都可以自己寫寫程式跑跑語料庫,還是很有成就感的。邏輯斯諦回歸與最大熵模型後面就開始難起來了。最大熵模型的原理十分優美,還真是符合他的名字,大上。不過從吳軍的《數學之美》得知他的實現方法十分複雜,運算量很大。我感覺是個很有潛力的方法,等以後計算機發展的更快了會有很大的用武之地。支援向量機(support vector machine)名字十分拉風,說白了其實就是感知機的高階版,由於加入了核函式可以有非線性支援向量分類機,效果很好並且運算量不是很大,算是現在用的最廣泛的方法了。剛開始接觸 adaboost 完全是嚇到我了,我擦擦,強可學習(strongly learnable)和弱可學習(weakly learnable)竟然是等價的!但是學習完 adaboost 演算法後,也就是那麼回事嘛……隱馬爾科夫模型和條件隨機場感覺是乙個思想的產物,這兩個方法是本書最難的兩個方法了。隱馬爾科夫鏈以前還接觸過,條件隨機場完全是不懂啊,這名字太炫酷了,根本停不下來!也罷,等以後遇到了再看吧。

看書的時候我問師兄,「這些方法不會用程式實現,怎麼用啊?」師兄不屑的看了我一眼,「有現成的工具包,不用自己寫。」好吧,我就猜到了會是這樣。感覺現在 nlp 比的不是數學,而是人力了。誰的語料庫強大,把所有方法都試一遍,選出來最好的方法,也不管為什麼這樣做結果好,中間的運算過程完全是黑盒操作。隨便乙個人。這就像是業餘黑客和真正黑客的區別,乙個是用工具的,乙個是寫工具的。

作為乙個 nlp 菜鳥,還是應該先從學習工具包入手的,我最近玩了玩幾個比較出名的 nlp 工具包 word2vec、svm-light 和 maxent。等玩出名堂了再寫個簡易版教程。

統計學習方法 學習筆記(1)

統計學習方法的三要素 模型 策略和演算法,統計學習的物件是資料 方法 模型 策略 演算法。監督學習,也就是利用訓練資料學習乙個模型,在用這個模型對測試樣本進行 而由於訓練資料是由人為提供的,所以稱之為監督學習。1 模型 模型即是假設空間對應的條件概率或者是決策樹函式。2 策略 這裡引入了損失函式和風...

李航 統計學習方法 學習筆記 1 統計學習方法概論

1.4 模型評估與模型選擇 1.5 其他.考研終於告一段落,接下來是安心等待入學。想利用這段時間系統學習一下機器學習基礎,簡單記錄一下自己的學習過程,也算是對自己的一種監督。下面詳細介紹一下 策略 首先引入損失函式與風險函式的概念。損失函式度量模型一次 的好壞,風險函式度量平均意義下模型 的好壞。統...

統計學習方法學習規劃

人類簡史 作者尤瓦爾 赫拉利,在他的書中反覆強調統計學的重要性 華為老闆任正非,在央視採訪中提到要特別重視統計學的研究 知乎上各種大佬都說統計學很有用 在終極的分析中,一切知識都是歷史 在抽象的意義下,一切科學都是數學 在理性的基礎上,所有的判斷都是統計 c.r.rao在 統計與真理 的扉頁上寫下的...