理想的機器學習書

2021-07-09 13:34:09 字數 1265 閱讀 1354

首先先簡單寫點吳軍《數學之美》和李航《統計機器學習原理》的書評,然後再談我心中理想的機器學習書。

我買了一本吳軍的《數學之美》,這是一本不錯的科普書,特色是作者與很多傳奇人物有過交往,能講一些他們的八卦。但原理介紹方面,還是有一些瑕疵。1)最大熵、lr、crf這三個演算法本是乙個道理,卻分散在三章中介紹,而且也沒有指出他們的聯絡;2)動態規劃在全書中有好幾處應用:地圖搜尋、維特比演算法、hmm、crf等,同樣乙個演算法分散介紹也不突出他們的內在聯絡;3)「聚類」和「分類」混用;4)「不可計算」是乙個與np-complette不同的概念。

吳軍在討論「規則與統計」,以及對阿公尺特-辛格之簡單哲學的吹捧,顯得很沒境界。哪個流派稱為顯學,哪個沒落,十年河東,十年河西而已,歷史上這樣的故事發生了很多次了。而且他在討論「規則與統計」時捧統計抑規則,而在討論艾公尺特辛格簡單哲學時,捧規則抑統計,不知他信仰到底是什麼?

李航的書對lr與maxent之間的關係介紹得也不夠理想。應引入指數族分布,給定一些約束求最大熵分布,數學結果是指數族分布;且引數結果與已知分布為指數族時的最大似然解等價。具有廣泛例項的指數族竟是最大熵原理的自然結果,讓人感嘆自然界的奇蹟,也內心欣賞這樣乙個連定理都稱不上的原則的神奇。

機器學習書,數學的嚴謹當然不可少,但只堆公式還不夠,若看公式直接找**就可以了,沒必要看書。

物理意義。一定要給每乙個數學結論都賦予物理意義。來龍去脈,給出每乙個重要發展的來龍去脈、歷史淵源或者八卦背景,學術點叫motivation。只有了解這些才能融會貫通,歷史地理解乙個方法或理論的地位、侷限性等。

每乙個問題的最好說明方式。有很多艱深的理論,極難理解,但總有各種著作有自己的闡述方式,寫作者要了解這些已有的闡述方式,並判斷哪種方式最絕妙,若不存在已有的好的方式,則要自己創造,只要作者理解深刻,一定能找到簡單的說明方式。

深度和廣度。不只是羅列演算法,對領域內最深刻的問題不能逃避,計算學習理論有兩本教材,翻過的人會知道這些基本的東西都不難理解。廣度,機器學習所涉及的隨機、矩陣、優化自然少不了,人工智慧、訊號處理。資訊理論中胡同的方法和理論也要拿來舉一反三,心理學、腦科學。哲學問題也要大膽討論。

實在。要傳達給讀者最有用的理念,理論是幫助人認識問題的,不是唬人的,必須向讀者說明某某東西說白了就是什麼。對介紹的東西不要一味吹捧,必須有批判。作者不能紙上談兵,必須有豐富的實戰經驗。

綜合。各種理論,演算法直接的聯絡,使讀者學會乙個就輕鬆了解另乙個。已有書在這個方向上努力了,但還不夠。

現在有書達到這個要求了嗎?都只是部分達到。這些要求太高了,除非作者把寫書當作事業。esp、prml都是經常被推薦的書。李航的書可取之處是重要的結論都有推導,還給出乙個很簡單的例子一步一步手算。

機器學習西瓜書筆記

概念 致力於通過計算的手段,利用經驗來改善系統自身的效能。其中,經驗以資料的形式存在。基本術語 資料集 記錄的集合。示例 樣本 每條記錄,關於乙個事件或物件的描述,反應事件或物件在某方面的表現或性質的事項。屬性 特徵 一條記錄 乙個樣本由多個屬性 特徵組成。屬性值 屬性或特徵的值。示例對應於乙個座標...

機器學習西瓜書 基本術語

一組記錄的集合,例如 注 d dd又稱為樣本的維數 資料集中每條記錄是關於乙個事件或物件的描述,例如 反映事件或物件在某方面的表現或性質的事項,例如 屬性上的取值,例如 屬性張成的空間,例如 假設有三種屬性 色澤 根蒂 敲聲,就可以張成乙個用於描述細化的三維空間,每個西瓜都可以在這個空間中找到自己的...

機器學習(西瓜書) 緒論筆記

正如我們根據過去的經驗來判斷明天的天氣,吃貨們希望從購買經驗中挑選乙個好瓜,那能不能讓計算機幫助人類來實現這個呢?機器學習正是這樣的一門學科,人的 經驗 對應計算機中的 資料 讓計算機來學習這些經驗資料,生成乙個演算法模型,在面對新的情況中,計算機便能作出有效的判斷,這便是機器學習。另一本經典教材的...