數學之美(吳軍著)學習總結和經典摘抄

2021-09-07 12:36:12 字數 3674 閱讀 5002

1.不同的文明,由於地域的原因。歷史上相互隔絕。便會有不同的文字。隨著文明的融合與衝突,不同文明下的人們須要交流,或者說通訊,那麼翻譯的需求便產生了。翻譯這件事之所以能達成。不過由於

不同的文字系統在記錄資訊的能力上是等價的

。(這個結論非常重要)進一步講。文字不過資訊的載體,而並不是資訊本身。

那麼不用文字,而用其他的載體(比方數字)能否夠儲存相同意義的資訊呢?這個答案是肯定的,這也是我們今天現代通訊的基礎。(page4)

2.羅塞塔石碑的兩點指導意義。

1)資訊冗餘是資訊保安的保障。 2)語言的資料。我們稱之為語料,尤其是雙語或者多語的對比語料對翻譯至關重要,它是我們從事機器翻譯研究的基礎。(page6)

3.在羅馬體系的文字中,整體來講,經常使用字短,生僻字長。這全然符合資訊論證最短編碼的原理。(page11)

4.通訊時,假設通道較寬,資訊不必壓縮就能夠直接傳遞;而假設通道非常窄,資訊在傳遞之前就要盡可能地壓縮。然後在接收端解壓縮。(page11)

1.基於統計的自然語言處理方法,在數學模型上和通訊是相通的,甚至是同樣的。因此。在數學意義上自然語言處理又和語言的初衷--通訊聯絡在了一起。(page26)

2.自然語言在演變的過程中,產生了詞義和上下文相關的特性。因此,它的文法是上下文有關文法。而程式語言是我們人為設計的,為了便於計算機解碼的上下文無關文法,相比自然語言簡單的多。理解兩者的計算量不可同日而語。(page21)

1.自然語言從它產生開始。逐漸演變成一種上下文相關的資訊表達和傳遞的方式。因此讓計算機處理自然語言,乙個主要的問題就是為自然語言這樣的上下文相關特性建立數學模型。

這個數學模型就是自然語言處理中常說的統計語言模型。它是今天全部自然語言處理的基礎。而且廣泛應用與機器翻譯、語音識別、印刷體和手寫體識別、拼寫糾錯、漢字輸入和文獻查詢(page27)。

2.統計模型:推斷乙個句子是否合理,就看看它的可能性大小怎樣

至於可能性就用概率來衡量。這種方法更普通而嚴格的描寫敘述是:假定s表示某個有意義的句子,由一連串特定順序排列的詞w1,w2,...,wn組成,這裡n是句子的長度。如今。我們想知道s在文字**現的可能性,也就是數學上所說的s的概率p(s)。(page28)

3.模型的訓練

使用語言模型須要知道模型中全部的條件概率,我們稱之為模型的引數。通過對語料的統計,得到這些引數的過程稱作模型的訓練。(page33)

1.在第3章談到能夠利用統計語言模型進行自然語言處理,而這些語言模型是建立在詞的基礎之上的,由於詞是表達語義的最小單位。對於漢語,詞之間沒有明顯的分界符,因此須要對句子分詞。才幹做進一步的自然語言處理。(page41)

2.分詞器示意圖在page44,圖4.1.

3.中文分詞以統計語言模型為基礎,經過幾十年的發展和完好,今天基本上能夠看做乙個已經解決的問題。不同的分詞器有好有壞。基本的區別在於:資料的使用和project實現的精度。(page48)

1.隱含馬爾可夫模型是乙個並不複雜的數學模型,到眼下為止,它一直被覺得是解決大多數自然語言處理問題最為高速、有效的方法。它成功地攻克了複雜的語音識別、機器翻譯等問題。

當我們看完這些複雜的問題是怎樣通過簡單的模型描寫敘述和解決時。會不得不由衷的感嘆數學模型之妙。

(page51)

2.隱含馬爾可夫模型的定義和圖示在page53和page54。

3.環繞著馬爾可夫模型有三個基本問題:

(1).給定乙個模型,怎樣計算某個特定的輸出序列的概率。

(通過forward-backward演算法解決)

(2).給定乙個模型和某個特定的輸出序列,怎樣找到最可能產生這個輸出的狀態序列。(通過維特比演算法解決)

(3).給定足夠量的觀測資料,怎樣預計隱含馬爾科夫模型的引數。

(通過鮑姆-韋爾奇演算法解決)(page55)

4.隱含馬爾科夫模型最初應用與通訊領域,繼而推廣到語音和語音處理中。成為連線自然語言處理和通訊的橋梁。同一時候隱含馬爾科夫模型也是機器學習的主要工具之中的乙個。

和差點兒全部的機器學習的模型工具一樣。它須要乙個訓練演算法(鮑姆韋爾奇演算法)和使用時的解碼演算法(維特比演算法),掌握了這兩類演算法,就基本上能夠使用隱含馬爾科夫模型這個工具了。

(page58)

1.夏農在他的**「通訊的數學原理」。提出了資訊熵(shang)的概念,解決的資訊的度量問題,而且量化出資訊的作用。(page59)

2.一條資訊的資訊量和它的不確定性有著直接的關係。比方說,我們要搞清楚我們一無所知的事情,就須要了解大量的資訊。所以,從這個角度來看,能夠覺得。資訊量就等於不確定性的多少。(page59)

3.資訊熵的公式在page60。公式6-1.資訊熵一般用h表示,單位是位元。隨意乙個隨機變數x。它的熵的定義例如以下:公式6-2。 變數的不確定性越大,熵也就越大。把它搞清楚須要的資訊量也就越大。

(page61)

4.關於冗餘度:假設一本書反覆的內容非常多。它的資訊量就小,冗餘度就大。不同的語言冗餘度區別非常大,而漢語在全部的語言中是冗餘度較小的。(page61)

5.資訊的作用  自古以來,資訊和消除不確定性是相聯絡的。資訊是消除系統不確定性的唯一辦法。 乙個事物內部存在著隨機性,也就是不確定性,假定為u,而從外部消除這個不確定性唯一的辦法是引入資訊i,而引入的資訊量取決於這個不確定性的大小,即i>u才行。

當i合理利用資訊,而不是玩什麼公式和機器學習演算法,是做好搜尋的關鍵。(page63)

7.」相關「的資訊也可以消除不確定性,為此。須要引入條件熵的概念(公式6-5)。概括:資訊的作用在於消除不確定性,自然語言處理的大量問題就是尋找相關的資訊。(page64)

機器翻譯中,最難的兩個問題之中的乙個是詞義的二義性(還有乙個是。語義的二義性吧)問題。

比方bush一詞能夠使美國**布希的名字,也能夠是灌木叢的意思。解決問題真正簡單卻很有用的方法是使用互資訊。

詳細的解決方法大致例如以下:首先從大量文字中找出和**布希一起出現的互資訊最大的一些詞。比方**。美國,國會,華盛頓等等,當然用相同的方法找出和灌木叢一起出現的互資訊最大的詞,比方土壤、植物、野生等等。有了這兩類詞,在翻譯bush時。看看上下文中哪類相關的詞多就能夠了。

(page67)

9.相對熵也是用來衡量相關性,但和變數的互資訊不同,它用來衡量兩個取值為正數的函式的相似性。利用相對熵能夠得到資訊檢索中最重要的乙個概念:詞頻率-逆向文件頻率

(page68)

10.資訊熵不僅是對資訊的量化度量。並且是整個資訊理論的基礎。

它對於通訊、資料壓縮、自然語言處理都有非常強的指導意義。

資訊熵的物理含義是對乙個資訊系統不確定性的度量,這一點上,它和熱力學中熵的概念同樣。由於後者是對於乙個系統無序的度量。

《數學之美》 吳軍

前段時間開始看吳軍寫的一本很經典的書 數學之美 然後下面是我的讀書小筆記 回憶一下,看自己看進去多少東西 關於數學的重新認識 從小學到大的數學,在我的認知裡,數學就是計算,推理 證明。這本書從人類的起源來演繹了數學的由來。讓我印象最深的一句就是 數學 就是通過學習獲取知識。世界萬物皆可量化,這就意味...

吳軍 《數學之美》讀書筆記

最近在拜讀吳軍博士的 數學之美 這本書,大有醍醐灌頂,相見很晚的感覺,故整理下學習筆記,記錄啟發。3.google的革命性 pagerank 網頁排序演算法 民主表決式 乙個網頁被很多其他網頁所鏈結,說明他受的信賴和承認越高,排名就越靠前。網頁排名計算原理為矩陣相乘,對零概率或小概率事件進行平滑處理...

吳軍博士的《數學之美》(摘錄)

說明 以下內容是我從這本書中挑選出來,對我的思維和思想有所啟發的。在這裡分享給大家。阿拉伯數字的發明者是印度人。有阿拉伯人將其發揚光大。羅馬體系的拼音文字中,總體來講,常用字短,生僻字長。而在漢字中,大多常用字筆畫少,生僻字筆畫多。這完全符合資訊理論中最短編碼原理,同時給書寫帶來了省時間和省材料。任...