數學之美筆記1

文字和語言vs數字和資訊

不同的文字系統在記錄資訊上的能力是等價的。文字只是資訊的載體，而非資訊本身

羅塞塔石碑

雙語對照的指導意義

1.資訊的冗餘是資訊保安的保障

2語言的資料，也就是語料，尤其是雙語或者多語的對照語料對翻譯至關重要，是機器翻譯研究的基礎

包括0在內的10個阿拉伯數字是印度人發明。

西方的拼音文字稱為羅馬式的語言，羅馬體系的文字中，總體來講，常用字短，生僻字長。漢語（意型文字），也是類似。

自然語言處理---從規則到統計

驗證機器是否有智慧型的方法---圖靈測試：讓人和機器進行交流，如果人無法判斷自己交流的物件是人還是機器時，就說明這個機器有智慧型了。

自然語言的文法是上下文有關文法，人為設計的程式語言是便於計算機解碼的上下文無關文法。

自然語言的處理經過幾十年的認識，從單純的句法分析和語義理解發展成基於統計的自然語言處理方法。

推動技術路線轉變的關鍵人物：弗里德里克-賈里尼克

統計語言模型

使用馬爾可夫假設使條件概率的計算變的簡單，因此出現了二元模型，三元模型。。。

實際運用中一般使用三元模型，因為階數越高時間複雜度和空間複雜度呈指數上公升，而且當階數達到3以後，再提高端數，模型的效果提公升不是很明顯

google的羅塞塔翻譯系統和語言搜尋系統使用的是四元模型。

統計中的零概率解決方法：

1.增加資料量

2.古德-圖靈估計，平滑方法---卡茨退避法

數學的魅力在於將複雜的問題簡單化

中文分詞

詞是利用統計語言模型進行自然語言處理的基礎。

西方拼音語言的詞之間有明確的分解符，而像中、日、韓、泰等詞之間沒有明確的分界符。

中分分詞最早的方法---查字典法，由北京航空航天大學的梁南元教授提出。

接著由哈爾濱工業大學的王曉龍博士把查字典的方法理論化，發展成最少詞數的分詞理論。

清華的郭進博士使用統計語言模型成功解決分詞二義性問題。

分詞的不一致性分為：錯誤和顆粒度不一致。近年來中文分詞的主要精力在於通過資料探勘不斷完善複合詞的詞典。

隱馬爾可夫模型

通訊的本質就是乙個編譯碼和傳輸的過程。

隱馬爾科夫模型的三個基本問題：

1.概率計算問題：給定乙個模型，如何計算摸個特定的輸出序列的概率----forward-backward演算法

2.**問題：給定乙個模型和某個特定的輸出序列，如何找到最可能產生這個輸出的狀態序列（即解碼問題）----- 維位元演算法，類似於動態規劃

3.學習問題：給定足夠量的觀測資料，如何估計隱馬爾科夫模型的引數，也就是模型訓練問題----- 鮑姆-韋爾奇演算法（em演算法）

資訊的度量和作用

資訊的作用在於消除不確定性，自然語言處理的大量問題就是找相關的資訊。相關的資訊能夠消除不確定，比如條件熵不大於資訊熵，h(x|y,z)<=h(x | y) <= h(x)，當x,y,z不相關時取得等號。

資訊量的位元數和所有可能情況的對數函式log有關，由此夏農提出了熵公式的定義

資訊熵的物理含義：對乙個物理系統不確定性的度量。

互資訊是對兩個隨機事件「相關性」的量化度量，可用它消除詞義的二義性，比如bush可以是布希或者灌木叢

相對熵也叫交叉熵用來衡量兩個取值為正數的函式的相似性。

相對熵的結論：

1.對於兩個完全相同的函式，它們的相對熵等於零

2.相對熵越大，兩個函式差異越大；反之，相對熵越小，兩個函式差異越小

3.對於概率分布或者概率密度函式，如果取值均大於零，相對熵可以度量兩個隨機分布的差異性

賈里尼克和現代語言處理

很多歷史偶然性背後有著它必然的原因

學習是一輩子的事

布林代數和搜尋引擎的索引

乙個搜尋引擎三種基本服務：

2.索引---建立快速有效的索引

3.排序---根據相關性對網頁進行公平準確的排序

現代物理研究成果表明：我們的世界實實在在是量子化的而不是連續的。

搜尋引擎之所以能夠在零點零幾秒找到成千上萬的搜尋結果是因為建立了索引，好比拿著圖書館的索引卡片去圖書館找一本書

資料庫的檢索是基於布林運算的

為了范姐資料壓力，需要根據網頁的重要性、質量和訪問的頻率建立常用和非常用等不同級別的索引，常用的索引要求訪問速度快，附加的資訊多，更新也要快。

圖論和網路爬蟲

圖的遍歷方法：深度優先遍歷和廣度優先遍歷

網路爬蟲的工程實現上需要解決的三大細節問題：

1.用bfs和dfs

2.頁面的分析和url的提取

若一些網頁存在，但搜尋引擎沒有收錄，可能的原因就是網路爬蟲中的解析程式沒有成功解析網頁中不規範的指令碼程式

pagerank---google的民主表決式網頁排名技術

pagerank的網頁排名演算法是google革命性的發明

pagerank的核心思想：乙個網頁被很多其他網頁鏈結，說明它受到普遍的承認和信賴，那麼它的排名就高。乙個網頁的排名應該來自於所有指向這個網頁的其他網頁的權重之和，而每個網頁的權重又與網頁的自身的排名有關

數學之美筆記1

《數學之美》筆記1

「數學之美」筆記

數學之美筆記2

數學之美筆記1

《數學之美》筆記1

「數學之美」筆記

數學之美筆記2

相關推薦