數學之美讀書筆記(一)

2021-06-19 02:49:59 字數 2908 閱讀 9159

chapter.1文字,語言,數學,資訊

很久以前人類以不同的叫聲表示不同的資訊,達到彼此交流的目的,當所要表達的資訊太多時,叫聲已經不夠用了,於是文字產生了。

1.數學,文字皆是資訊的載體

文字:知道「羅塞塔」石碑的典故。

數字:進製的產生

為了表達大數,不同的文明產生了不同的數字表示方法,最終只有使用10進製的文明生存了下來。

10進製:古中國、古印度、阿拉伯

12進製:印度、斯里蘭卡

20進製:瑪雅,瑪雅文明失敗的原因之一就是進製太複雜,不利於科學進步,咱們現在要背九九乘法表,他們背的是361路圍棋棋盤。

單位進製:羅馬(5、10、50、100、500、1000)

數字的表示方法(編譯碼原理)

中國:編譯碼的金鑰是乘除 二百萬 = 2x 100 x 10000

羅馬:編譯碼的金鑰是加減 iv =5-1 = 4  ,要用羅馬文字表達10億的話,一黑板是寫不下的。

2.從單一的文字到語言的轉變就是一種概念的聚類,通過上下文所建立的條件概率模型可推算某多義詞在句中的含義

3.資訊冗餘是資訊保安的保證

資訊冗餘的重要性:當石碑經歷風吹日曬,一部分文字被腐蝕掉時,還有另一部分重複的文字作為備份,可以還原石碑的資訊。類似的還有人體的dna,在人體當中,有99%的dna是無效的,正是這99%保證了人類的正常繁衍,當遇人類遇到輻射時,dna發生變異的概率是1%.

4.語言的資料---多語對照語料(用於破解語言規則,即翻譯)

5.將日常的白話口語寫成精簡的文言文本身是乙個通道壓縮的過程,而將文言文解釋清楚則是對應的解壓縮過程。

6.詞可認為是有限而封閉的集合,語言則是無限且開放的集合,前者有完備的編碼規則,後者則不然

7.抄聖經的校驗方式:將每個字母對映成乙個數字。把每一頁文字對應的數字按行列加起來,寫在每行每列的尾部。在抄寫時,把自己的數字和原文的數字進行對照,可以以最快的速度檢查是否有抄寫錯誤,而且還能定位行列。這種簡單有效的方法已經開始展現出數學之美了

chapter.2自然語言處理--從規則到統計

我們把乙個要表達的意思,通過某種語言的一句話表達出來,就是用這種語言的編碼方式對頭腦中的資訊做一次編碼,編碼的結果就是一竄文字。如果對方懂得這門語言,就可以用這門語言的解碼方法獲得說話人要表達的資訊。

1、語意理解(失敗):讓計算機像人腦一樣分析語句的意思,建立語法分析樹。

失敗原因有兩點:

a.當遇到長難句時,計算量大幅增加,計算機的解碼是上下文無關的,而自然語言是上下文相關的。

b.要理解語意必須建立大量的語法規則,然而即使規則再多,也不能覆蓋全部的自然語言,總會有新的流行語言產生,它們處於語法規則之外。

2、數學與統計(成功):通過隱含馬爾可夫模型來估計句子出現的可能性。

馬爾可夫假設:在乙個句子中,每個詞x出現的概率只與它前面的乙個詞x-1有關,而與更前面的0~x-2個詞無關。這是乙個偷懶卻有效的假設,這個著名的假設使得語言處理的計算速度大幅提公升且不失準確。

馬爾可夫鏈是馬爾可夫模型的基礎。它是乙個有向圖,各個狀態之間有轉移概率。同時,馬爾可夫鏈也對概率論的研究產生了巨大貢獻。

馬爾可夫鏈的訓練:鮑姆-韋爾奇演算法

chapter.3統計語言模型

幾十年前,數學家兼資訊理論的祖師爺夏農(claudeshannon)提出了用數學的辦法處理自然語言的想法。遺憾的是當時的計算機條件根本無法滿足大量資訊處理的需要,所以他這個想法當時並沒有被人們重視。

七十年代初,有了大規模積體電路的快速計算機後,夏農的夢想才得以實現。首先成功利用數學方法解決自然語言處理問題的是語音和語言處理大師賈里尼克(fredjelinek)。

1.乙個句子是否合理,由這種文字組合出現的概率來判斷。

2.一階(可擴充套件到n階)馬爾科夫假設---用p(wi|wi-1)近似p(wi|wi-1,wi-2,...w1)

3.不平滑問題:由於訓練樣本不足而造成的部分條件概率為0的估計問題

4.古德-圖靈估計:從概率總量中分配乙個小比例給未看見的事件(訓練集以外)----即給不可信的樣本集打乙個估計總體的折扣(對出現頻次小於某閥值的詞的估計打一折扣已解決不平滑問題)

統計學陷阱

當統計樣本不足時(分母太小),統計結果的說服力將降低,此時可以用古德-圖靈方法對統計結果進行打折平滑處理

n階馬爾可夫假設:每個詞和它前面的n-1個詞有關,n元模型的大小是n的指數關係。google翻譯使用的是4階模型

chapter.4中文分詞

1.沒有100%確定的規則,只有適合應有的選擇

2.此地安能居住,其人好不憂傷

此地-安能-居住,其人-好不-憂傷

此地安-能居住,其人好-不憂傷

語言對資訊的表達總是有噪音(這裡是個人情感)的而不能完全精確解碼,對有噪音訓練集進行學習反而能更好的實現對現實語言的判別需求

近幾年中文分詞主要花精力的地方:花功夫做資料探勘的工作,不斷完善複合詞的詞典。

3.世上東西總是相通的,譬如分詞的顆粒和神經網路的步長就是一對

chapter.5隱馬爾可夫模型

1.通訊的本質是乙個編譯碼和傳輸的過程。

2.通訊六要素:傳送者,通道,接受者,資訊,上下文,編碼

3.隨機過程----隨機變數的時間序列;馬爾科夫鏈----馬爾科夫假設下的隨機過程

5.隱馬爾可夫模型三個基本問題:

5.1.給定乙個模型,如何計算某個特殊輸出序列的概率-----forward--backward演算法

5.2.給定乙個模型和某乙個特定輸出序列,如何找到最可能產生這個輸出的狀態序列----維特比演算法

5.3.給定足夠量的觀測資料,如何估計隱馬爾可夫模型的引數(各個轉移概率,生成概率)----模型訓練問題

6.無監督訓練演算法---鮑姆-韋爾奇演算法---通過迭代找到期望概率最大化的模型(但結果可能是區域性而非全域性最優),是一種期望值最大化演算法,em過程。

7.隱馬爾可夫模型作為機器學習的模型工具之一,使用時需要乙個訓練演算法(鮑姆-韋爾奇)和使用時的解碼演算法(維特比)

《數學之美》讀書筆記

通訊六要素 s是可見的 信源 o是不可見的 輸出 信宿 通訊就是要根據觀測到的o恢復出s 對於翻譯問題,漢譯英 英語是s,漢語是o,根據s推斷o tf 詞頻 idf 逆文字頻率指數 以條件隨機場為例,希望找到乙個符合所有邊緣分布的概率分布函式。根據最大熵原則 希望找到乙個符合所有邊緣分布並使熵達到最...

《數學之美》讀書筆記

之前拜讀過吳軍老師的 數學之美 雖然這是一本科普性質的讀物,但還是能從中獲益匪淺。下面根據記憶以及之前做過的簡要的書面筆記,做乙個概括。1.資訊的作用在於消除不確定性,自然語言處理的大量問題都是找相關的資訊。2.關於搜尋 技術分為術和道兩種。具體的做事方法是術,做事的原理和原則是道。只有掌握了搜尋的...

數學之美讀書筆記(二)

chapter.6資訊的度量和作用 1.一條資訊的資訊量就等於其不確定性 熵 越是不確定的事物越是要大量資訊去說明 以位元為衡量單位 資訊是消除不確定性的唯一方法 2.幾乎所有自然語言處理,資訊與訊號處理的應用都是乙個消除不確定性的過程 3.合理利用資訊,而不是玩弄什麼公式和機器學習演算法,是做好搜...