第六章第七章 賈里尼克和現代語言處理
1.今天數字通訊中應用最廣的兩個演算法:bcjr演算法和維特比演算法。
第八章 簡單之美-布林代數和搜尋引擎第十章 圖論和網路爬蟲頁面分析和url的提取
網際網路早期,url都是以文字的形式防在網頁中,前後都有明顯的標識,很容易提取出來。但是現在很多網頁是用一種指令碼語言生成的。開啟網頁的源**,url不是直接可見的文字,而是執行這一段指令碼後才能得到的結果。因此,網路爬蟲的頁面分析就變得複雜得多,它要模擬瀏覽器執行乙個網頁,才能得到裡面隱含的url。有些網頁的指令碼寫得非常不規範,以致於解析起來非常困難,但是這些網頁還是可以在瀏覽器中開啟,說明瀏覽器可以解析。因此需要做瀏覽器核心的工程師來寫網路爬蟲中的解析程式。
第十章 pagerank-google的民主表決式網頁排名技術
1.對於乙個特定的查詢,搜尋結果的排名取決於兩組資訊:關於網頁的質量資訊以及這個查詢與每個網頁的相關性資訊。
2.在網際網路上,如果乙個網頁被其他很多網頁所鏈結,說明它受到普遍的承認和信賴,那麼它的排名就高。實際上的演算法更加複雜。因為排名高的網頁的連線更可靠,於是要給這些鏈結以較大的權重。即網頁排名高的**貢獻的鏈結權重大。
3.把問題變成乙個二維陣列相乘的問題。他們先假定所有的網頁的排名都是相同的,並且根據這個初始值,算出各個網頁的第一次迭代排名,然後再根據第一次迭代排名算出第二次的排名。不論初始值如何選取,這種演算法都能保證網頁排名的估計值能收斂到排名的真實值。
4.這麼大的矩陣相乘,計算量是非常大的,佩奇和布林兩人利用稀疏矩陣的計算技巧,大大簡化了計算量。
5.平行計算工具:mapreduce.
6.網頁排名演算法的高明之處在於它把整個網際網路當做乙個整體看待。
7.由於網頁之間鏈結的數量相比網際網路的規模非常稀疏,因此計算網頁的網頁排名也需要對零概率或者小概率事件進行平滑處理。
8.網頁排名的計算主要是矩陣相乘。這種計算很容易分解成許多小任務,在多台計算機上並行處理。
原創 《數學之美》讀書筆記 第2章
前一章節的最後,作者提到了乙個語言學研究方法的問題 究竟是語言對,還是語法對。也即為,究竟是從真實的語句文字 成為語料 出發,還是從規則出發。最後自然語言處理的成就宣布了前者的勝利。也就是,從規則到統計。本章節主要講的是自然語言處理的發展史,其中分為兩個階段,前一階段是科學家們走彎路的時候,也即為用...
原創 《數學之美》讀書筆記 第3章
假設有乙個句子 明天校長威廉斯打算宣布捐助1000萬元給落後鄉村建立一所希望小學 改一下詞的順序,變成 校長威廉斯明天捐助打算宣布1000萬元給鄉村建立落後小學一所希望 再改一下順序,變成 威廉斯校宣布長捐助明鄉村10天萬元落後10希望一所小建立學 第一句話,能明白句子的含義,第二句話,大概讀下來能...
數學之美讀書筆記(二)
chapter.6資訊的度量和作用 1.一條資訊的資訊量就等於其不確定性 熵 越是不確定的事物越是要大量資訊去說明 以位元為衡量單位 資訊是消除不確定性的唯一方法 2.幾乎所有自然語言處理,資訊與訊號處理的應用都是乙個消除不確定性的過程 3.合理利用資訊,而不是玩弄什麼公式和機器學習演算法,是做好搜...