這裡的書涉及到資訊檢索,自然語言處理,機器學習,模式識別,資料探勘的方方面面,每一本書都是值得讀者深入的閱讀,研究和討論的。因此,我只能就我個人的理解對幾本相對熟悉的或者讀者的評價很高的書做一些簡單的介紹,一來拋磚引玉,希望大牛來多給些指正,二來也為他人的學習提供一些經驗。
這裡是river同學的介紹,有什麼問題可以直接與他溝通聯絡,他的信箱是[email protected]:
natural language processing
information retrieval:
modern information retrieval: 這本書是ir領域引用率最高的一本書,近年sigir的大多數文章都會提到的,原因很簡單,在這個領域實用化商業化之前兩位偉大的作者就已經預見到了ir在網際網路的繁榮,於是成書。
an introduction to information retrieval: 這是chris. mannning在2023年的新作,有兩個特點:1. 新,因為成書的時間離現在很近,所以內容大都比較新。2. 簡單,非常容易讀懂,對於初學者,大概乙個月的時間就可以通讀這本書,而且其中的概念也不難理解。該書的主線是按照檢索模型的發展順序來組織的。從boolean model到 vsm,再到langauge model。當然其中也涉及到了當前的主要的研究熱點,例如machine learning中的clustering, web search中的link analysis等等。
matrix:
矩陣論,或者說是線性代數:它是ml,pr等的數學基礎之一。它可以提供一些簡介的數學表示,可以說上層教材的所有變數表達和變換都離不開向量和矩陣;矩陣理論也為上層應用的線性方法和思想提供了有利的理論基礎。我使用的與矩陣相關的參考書主要有:
matrix analysis: 這本書是備受推崇的矩陣論教材,據說講的非常透徹。
matrix computation: 這是矩陣論和科學計算結合的經典之作,它對矩陣論的各種演算法都提供了計算機實現的解決方案以及複雜度分析。
matrix cookbook: 這是網上流傳很廣的乙個小冊子,沒有原理的講解,沒有定理的證明,只有公式的羅列,可以作為手冊來查。
optimization:
優化在ml, pr領域都是不可或缺的,svm的求解就是二次規劃問題,em的求解也是把約束優化問題轉化為了無約束優化問題最後再使用最優化的一般方法解決的。在這方面的中文教材已經做得很優秀,只在這裡簡單介紹兩本(也不一定是最好的)
convex optimization: boyd
和vandenberghe的作品,2023年出版,內容較新。書中的內容分為理論,應用和演算法三個部分,適合不同需求的人閱讀。另外,兩位作者有篇半定規劃的**也很有影響。
這是個最容易造成學習障礙的數學領域,上層領域中的**鋪天蓋地的都是parameter estimation, inference,對於有著「不求甚解」的習慣的初學者,這些基本概念無形之中成為了攔路虎。然而,統計學發展到現在也可以算是相對成熟了,學科本身提供了大量的參考資料:
statistical inference: casella and berger的作品,現在已經出到第二版了,國內有影印版的,這裡對統計學的一些基本概念做了詳細的解釋,不涉及太多概率的知識,至於測度只是一帶而過;它的重點在於幫助理解統計學的思想體系,其中概念之間的聯絡甚為緊密;書中有大量的例子,這為感性的學習者提供了不少幫助。在書的後面幾章,一些回歸分析的模型也有討論。總而言之,這本書是一本相對淺顯的統計系的教材。
all of statistics: 作者wasserman,它是源自cmu的統計學書籍,成書的原因很簡單——就是為廣大奮戰在計算機研究前線的人們提供統計學上的支援。一方面,它試圖包羅統計學的各個方面(all of statistics),從基本概念到方法模型都有提到,另一方面,它卻是個精簡的版本(a concise course in statistical inference),很多子問題都沒有詳細展開的討論。這本書的最大亮點是計算機的氣氛很重,從正文之前對比machine learning和statistics的術語的**就可見一斑,讀這本書就好像在讀cs的**,而不是統計的專注。所以,不管它是否透徹是否準確是否完備,對我們來說,它實在是難得的珍寶。
algorithms:
一起學習Mysql Mysql的複製原理
一起學習mysql 系列,對於開發過程中對mysql的優化最重要的節點在前面幾篇文章中提到了一些,不過還是需要不斷的總結和思考,才可以更好的優化mysql。本篇文章,下面就簡單的說一下mysql關於複製的一些知識點,如果有更好的見解,可以一起討論 mysql的複製即增加一台mysql例項,和主庫進行...
關於認證的看法,歡迎大家一起討論
關於認證的看法 證書這真是個好東西啊!多少人為它花盡心思,花盡金錢的去得到它。它也正被人理解成。有了證書才能找到好的工作!沒錯,在以前的確是這樣。但現在已經發生了很多變化!以前考證書複習資料很少,要想考過試拿到證書,完全是通過努力得來的,而現在,考證書我大家都是在背題庫吧。考的人多了,當然就越來越不...
關於group by 和max函式一起使用的坑
前幾天去參加一場面試,面試過程中有被問到乙個sql語句的問題,很遺憾沒有回答上來,結果一面直接掛 問完這個問題後,當我聽到面試官對我說 你有什麼想問我的嗎?我的內心一片涼涼 其實面試官問的問題聽起來很簡單,一張劇目演出表,表中有 劇目id,劇目名稱,演出單位,票房 問 查詢出每個演出單位票房最高的劇...