《數學之美》讀書筆記

2022-07-26 21:54:10 字數 2599 閱讀 3483

之前拜讀過吳軍老師的《數學之美》。雖然這是一本科普性質的讀物,但還是能從中獲益匪淺。下面根據記憶以及之前做過的簡要的書面筆記,做乙個概括。

1.資訊的作用在於消除不確定性,自然語言處理的大量問題都是找相關的資訊。

2.關於搜尋:技術分為術和道兩種。具體的做事方法是術,做事的原理和原則是道。只有掌握了搜尋的本質和精髓,才能游刃有餘。

4.上述的索引有不同的等級劃分。應該根據需要網頁的重要性、質量和訪問的頻率而建立。

7.google的pagerank演算法:簡單的說就是民主表決。在網際網路上,如果乙個網頁被很多其他的網頁所鏈結,說明它受到普遍的承認與信賴,那麼它的排名就高。網頁排名高的**貢獻的鏈結權重大。

9.位址識別技術運用了有限狀態機--它包括一些狀態(節點)和連線這些狀態的有向弧。基於概率的有限狀態機被應用於模糊匹配上。

10.全球導航運用了動態規劃演算法。

11.關於新聞的分類。這一篇巧妙地將新聞的分類與數學上的余弦公式聯絡起來。將一遍新聞看做乙個向量--特徵向量。向量的維度是詞的總數量,向量中每一維度代表每個詞對這篇新聞主題的貢獻。然後計算兩個特徵向量的夾角:cos(a)=/(|b|*|c|)=(x1y1+x2y2+...+x64000y64000)/(sqrt(x1^2+x2^2+...+x64000^2)*sqrt(y1^2+y2^2+...+y64000^2))。(x1、y1表示x的下表是1,y的下表是1;sqrt()表示開方。x1^2表示x1的平方)計算的夾角越小,說明兩條新聞越相近,越相關。然後可以計算待分類的新聞的特徵向量,與各個類別代表的新聞的特徵向量的夾角。求出其中最小的夾角,那麼這個待分類的新聞就應該歸類到與其夾角最小的那一類新聞中。

12.資訊指紋:提取資訊的特徵作為乙個字串,求出該字串對應為乙個隨機數。只要產生隨機數的演算法足夠好,就能保證幾乎不可能有兩個字串的指紋相同。資訊指紋的好處:節省空間,儲存整型比儲存整個字串省多了;提高查詢效率,如果查詢字串,需要乙個個匹配,而查詢整型則有先排序然後二分查詢等方法,效率提高很多。

13.偽隨機數產生器演算法--梅森旋轉演算法。

14.在網際網路上加密需要使用基於加密的偽隨機數產生器。常用的演算法有md5或sha-1等。它們可以將不定長的資訊變為定長的128為或160位二進位制隨機數。sha-1被山東大學的王小雲教授證明有漏洞。題外話:該書出版時王小雲教授尚未發現md5的漏洞,因此書中沒有提到此事。王小雲教授實際上也證明了md5演算法有漏洞,其實不是坊間流傳的攻克了md5演算法。而是找出了md5演算法的強無碰撞。如果想要真正破解md5演算法,應該找到弱無碰撞才可以。設f(x)為hash函式,那麼弱無碰撞是指:已知乙個數x,要找出數y,使得他們的雜湊值f(x)=f(y)。強無碰撞是指找出一對數x與y,使得它們的雜湊值f(x)=f(y)。乙個好的密碼演算法,應該要求不能找出強無碰撞和弱無碰撞。

16.最大熵模型與最大熵原理。通俗的講就是雞蛋不要放在乙個籃子裡。這是一種非常簡單、優美,唯一一種既可以滿足各個資訊源的限制條件,同時又能保證平滑性的模型。但是計算量非常大。把各種特徵綜合在一起的最好的方法是採用最大熵模型。

17.輸入法。輸入漢字的快慢取決於漢字編碼的平均長度。所謂平均長度是指擊鍵次數乘以尋找這個鍵所需要的時間。漢字的編碼包括對拼音的編碼以及消除歧義的編碼。而五筆輸入法雖然減少了每個漢字擊鍵的次數,卻忽視了找到每個鍵的時間,因此它的編碼的平均長度比較長,速度比較慢。

18.夏農第一定理:對於乙個資訊,任何編碼的長度都不小於它的資訊熵。

19.拼音輸入法拼音轉漢字的演算法:每個拼音可以對應多個漢字,而把乙個拼音串對應的漢字從左到右連起來,就是一張有向圖。它被稱為網格圖或籬笆圖。拼音輸入法就是根據上下文在給定拼音條件下找到乙個最優的句子。對於上述的網格圖,就對圖的概率的表示式做轉換,將連乘轉化為連加。將問題轉為尋找最短路徑的問題。而最短路徑的問題可以用動態規劃演算法解決。

20.布隆過濾器用於檢索乙個元素是否在乙個集合裡。它將元素通過hash函式對映為位列陣中的乙個點。因此只要看這個點是不是1就可以判斷集合中有沒有它了。布隆過濾器具有快速和省空間的優點,但是由於它是基於hash函式的,而hash函式難免會有衝突,因此布隆過濾器會有一定的誤識別率。補救措施是再建立乙個小的白名單,儲存可能被誤識別的元素。

21.馬爾科夫鏈描述一種狀態序列,其每個狀態值取決於前面有限個狀態。這種模型對很多實際問題來說是一種很粗略的簡化。因為在現實生活中,事物相互的關係不能用一條鏈來串起來,他們之間的關係可能是交叉的,錯綜複雜的。這個時候應該用貝葉斯網路,它是一種加權的有向圖。馬爾科夫鏈是貝葉斯網路的特例,貝葉斯網路是馬爾科夫鏈的推廣。而貝葉斯網路的訓練是乙個np問題。訓練貝葉斯網路,可以用貪心法。而為了防止區域性最優的方法,可以用蒙特卡洛演算法。

22.好的方法在形式上往往是簡單的。

23.維特比演算法是一種特殊但應用最廣泛的動態規劃演算法,用來尋找觀察結果最有可能產生觀測事件序列的-維特比路徑-隱含狀態序列。它針對籬笆網路的有向圖的最短路徑問題,凡是用隱含馬爾科夫模型描述的問題都可以用它解碼。

24.邏輯回歸模型是一種將影響概率的不同因素結合在一起的指數模型。和指數模型(例如最大熵模型)一樣,它們的訓練方法相似,都可以採用迭代演算法gis和改進的迭代演算法iis來實現。

25.mapreduce運用了分治法。將乙個大任務拆分成小的子任務,並且完成子任務的計算,這個過程叫map。將中間的結果合併成最終結果,這個過程叫reduce。

以上只是對整本書的乙個粗淺的回顧。上面的內容之於整本書的內容,相當於沙灘上的幾件貝殼之於整個沙灘。若想更加細緻的了解本書,還是從頭到尾品讀一遍書比較好。

《數學之美》讀書筆記

通訊六要素 s是可見的 信源 o是不可見的 輸出 信宿 通訊就是要根據觀測到的o恢復出s 對於翻譯問題,漢譯英 英語是s,漢語是o,根據s推斷o tf 詞頻 idf 逆文字頻率指數 以條件隨機場為例,希望找到乙個符合所有邊緣分布的概率分布函式。根據最大熵原則 希望找到乙個符合所有邊緣分布並使熵達到最...

數學之美讀書筆記(一)

chapter.1文字,語言,數學,資訊 很久以前人類以不同的叫聲表示不同的資訊,達到彼此交流的目的,當所要表達的資訊太多時,叫聲已經不夠用了,於是文字產生了。1.數學,文字皆是資訊的載體 文字 知道 羅塞塔 石碑的典故。數字 進製的產生 為了表達大數,不同的文明產生了不同的數字表示方法,最終只有使...

數學之美讀書筆記(二)

chapter.6資訊的度量和作用 1.一條資訊的資訊量就等於其不確定性 熵 越是不確定的事物越是要大量資訊去說明 以位元為衡量單位 資訊是消除不確定性的唯一方法 2.幾乎所有自然語言處理,資訊與訊號處理的應用都是乙個消除不確定性的過程 3.合理利用資訊,而不是玩弄什麼公式和機器學習演算法,是做好搜...