《數學之美》讀書筆記（二）第6章第10章

第六章第七章賈里尼克和現代語言處理

1.今天數字通訊中應用最廣的兩個演算法：bcjr演算法和維特比演算法。

第八章簡單之美-布林代數和搜尋引擎第十章圖論和網路爬蟲頁面分析和url的提取

網際網路早期，url都是以文字的形式防在網頁中，前後都有明顯的標識，很容易提取出來。但是現在很多網頁是用一種指令碼語言生成的。開啟網頁的源**，url不是直接可見的文字，而是執行這一段指令碼後才能得到的結果。因此，網路爬蟲的頁面分析就變得複雜得多，它要模擬瀏覽器執行乙個網頁，才能得到裡面隱含的url。有些網頁的指令碼寫得非常不規範，以致於解析起來非常困難，但是這些網頁還是可以在瀏覽器中開啟，說明瀏覽器可以解析。因此需要做瀏覽器核心的工程師來寫網路爬蟲中的解析程式。

第十章 pagerank-google的民主表決式網頁排名技術

1.對於乙個特定的查詢，搜尋結果的排名取決於兩組資訊：關於網頁的質量資訊以及這個查詢與每個網頁的相關性資訊。

2.在網際網路上，如果乙個網頁被其他很多網頁所鏈結，說明它受到普遍的承認和信賴，那麼它的排名就高。實際上的演算法更加複雜。因為排名高的網頁的連線更可靠，於是要給這些鏈結以較大的權重。即網頁排名高的**貢獻的鏈結權重大。

3.把問題變成乙個二維陣列相乘的問題。他們先假定所有的網頁的排名都是相同的，並且根據這個初始值，算出各個網頁的第一次迭代排名，然後再根據第一次迭代排名算出第二次的排名。不論初始值如何選取，這種演算法都能保證網頁排名的估計值能收斂到排名的真實值。

4.這麼大的矩陣相乘，計算量是非常大的，佩奇和布林兩人利用稀疏矩陣的計算技巧，大大簡化了計算量。

5.平行計算工具：mapreduce.

6.網頁排名演算法的高明之處在於它把整個網際網路當做乙個整體看待。

7.由於網頁之間鏈結的數量相比網際網路的規模非常稀疏，因此計算網頁的網頁排名也需要對零概率或者小概率事件進行平滑處理。

8.網頁排名的計算主要是矩陣相乘。這種計算很容易分解成許多小任務，在多台計算機上並行處理。

《數學之美》讀書筆記（二）第6章第10章

原創《數學之美》讀書筆記第2章

原創《數學之美》讀書筆記第3章

數學之美讀書筆記（二）

《數學之美》讀書筆記（二） 第6章 第10章

原創 《數學之美》讀書筆記 第2章

原創 《數學之美》讀書筆記 第3章

數學之美讀書筆記（二）

相關推薦

《數學之美》讀書筆記（二）第6章第10章

原創《數學之美》讀書筆記第2章

原創《數學之美》讀書筆記第3章