第8章的題目是「簡單之美-布林代數和搜尋引擎」
在文章的開篇,作者首先介紹了做事情的方法分為術和道兩種,具體的做事方法是術,做事的原理和原則是道。在數學之美這本書中,作者更傾向於介紹道,而非術。因為只有掌握了做事情的道,才能持續做到游刃有餘。而期望作者介紹術的讀者,其實是一種想走捷徑的想法。但是,真正做好一件事情,沒有捷徑可走,離不開一萬小時的專業訓練和努力。用搜尋來做個例子,做好搜尋,最基本的要求是每天分析10-20個不好的搜尋結果,積累一段時間後才會有感覺。但是,很多任務程師,中國的美國的都有,都做不到這一點,他們總希望靠乙個演算法,乙個模型就能畢其功於一役,而這是不現實的。
之後,作者了介紹了搭建搜尋引擎需要做的幾件事情,其中比較重要的一件是建立快速有效的索引。這次閱讀,自己對索引的認識又有了一些提高。在之前的認識中,搜尋引擎建立索引,主要的任務是提高索引的速度,以保證搜尋的速度,而沒有認識到搜尋引擎建立索引的目的不僅僅是快速,還有乙個很重要的目的是,給足夠多的詞語建立索引,從而能夠保證搜尋不同內容時都有結果返回。
那麼,搜尋引擎的索引是如何建立的呢?搜尋引擎為什麼能在零點零幾秒內返回成千上萬個結果呢?
當然,這麼大的資料量,一台計算機是無法儲存和處理的,工程上就會用到分布式的技術架構。雖然在工程上比較複雜,但索引的原理並沒有實質的變化。
《數學之美》讀書筆記(二) 第6章 第10章
第六章第七章 賈里尼克和現代語言處理 1.今天數字通訊中應用最廣的兩個演算法 bcjr演算法和維特比演算法。第八章 簡單之美 布林代數和搜尋引擎第十章 圖論和網路爬蟲頁面分析和url的提取 網際網路早期,url都是以文字的形式防在網頁中,前後都有明顯的標識,很容易提取出來。但是現在很多網頁是用一種指...
原創 《數學之美》讀書筆記 第2章
前一章節的最後,作者提到了乙個語言學研究方法的問題 究竟是語言對,還是語法對。也即為,究竟是從真實的語句文字 成為語料 出發,還是從規則出發。最後自然語言處理的成就宣布了前者的勝利。也就是,從規則到統計。本章節主要講的是自然語言處理的發展史,其中分為兩個階段,前一階段是科學家們走彎路的時候,也即為用...
原創 《數學之美》讀書筆記 第3章
假設有乙個句子 明天校長威廉斯打算宣布捐助1000萬元給落後鄉村建立一所希望小學 改一下詞的順序,變成 校長威廉斯明天捐助打算宣布1000萬元給鄉村建立落後小學一所希望 再改一下順序,變成 威廉斯校宣布長捐助明鄉村10天萬元落後10希望一所小建立學 第一句話,能明白句子的含義,第二句話,大概讀下來能...