文字和語言vs數字和資訊
不同的文字系統在記錄資訊上的能力是等價的。文字只是資訊的載體,而非資訊本身
羅塞塔石碑
雙語對照的指導意義
1.資訊的冗餘是資訊保安的保障
2語言的資料,也就是語料,尤其是雙語或者多語的對照語料對翻譯至關重要,是機器翻譯研究的基礎
包括0在內的10個阿拉伯數字是印度人發明。
西方的拼音文字稱為羅馬式的語言,羅馬體系的文字中,總體來講,常用字短,生僻字長。漢語(意型文字),也是類似。
自然語言處理---從規則到統計
驗證機器是否有智慧型的方法---圖靈測試:讓人和機器進行交流,如果人無法判斷自己交流的物件是人還是機器時,就說明這個機器有智慧型了。
自然語言的文法是上下文有關文法,人為設計的程式語言是便於計算機解碼的上下文無關文法。
自然語言的處理經過幾十年的認識,從單純的句法分析和語義理解發展成基於統計的自然語言處理方法。
推動技術路線轉變的關鍵人物:弗里德里克-賈里尼克
統計語言模型
使用馬爾可夫假設使條件概率的計算變的簡單,因此出現了二元模型,三元模型。。。
實際運用中一般使用三元模型,因為階數越高時間複雜度和空間複雜度呈指數上公升,而且當階數達到3以後,再提高端數,模型的效果提公升不是很明顯
google的羅塞塔翻譯系統和語言搜尋系統使用的是四元模型。
統計中的零概率解決方法:
1.增加資料量
2.古德-圖靈估計,平滑方法---卡茨退避法
數學的魅力在於將複雜的問題簡單化
中文分詞
詞是利用統計語言模型進行自然語言處理的基礎。
西方拼音語言的詞之間有明確的分解符,而像中、日、韓、泰等詞之間沒有明確的分界符。
中分分詞最早的方法---查字典法,由北京航空航天大學的梁南元教授提出。
接著由哈爾濱工業大學的王曉龍博士把查字典的方法理論化,發展成最少詞數的分詞理論。
清華的郭進博士使用統計語言模型成功解決分詞二義性問題。
分詞的不一致性分為:錯誤和顆粒度不一致。近年來中文分詞的主要精力在於通過資料探勘不斷完善複合詞的詞典。
隱馬爾可夫模型
通訊的本質就是乙個編譯碼和傳輸的過程。
隱馬爾科夫模型的三個基本問題:
1.概率計算問題:給定乙個模型,如何計算摸個特定的輸出序列的概率----forward-backward演算法
2.**問題:給定乙個模型和某個特定的輸出序列,如何找到最可能產生這個輸出的狀態序列(即解碼問題)----- 維位元演算法,類似於動態規劃
3.學習問題:給定足夠量的觀測資料,如何估計隱馬爾科夫模型的引數,也就是模型訓練問題----- 鮑姆-韋爾奇演算法(em演算法)
資訊的度量和作用
資訊的作用在於消除不確定性,自然語言處理的大量問題就是找相關的資訊。相關的資訊能夠消除不確定,比如條件熵不大於資訊熵,h(x|y,z)<=h(x | y) <= h(x),當x,y,z不相關時取得等號。
資訊量的位元數和所有可能情況的對數函式log有關,由此夏農提出了熵公式的定義
資訊熵的物理含義:對乙個物理系統不確定性的度量。
互資訊 是對兩個隨機事件「相關性」的量化度量,可用它消除詞義的二義性,比如bush可以是布希或者灌木叢
相對熵 也叫交叉熵 用來衡量兩個取值為正數的函式的相似性。
相對熵的結論:
1.對於兩個完全相同的函式,它們的相對熵等於零
2.相對熵越大,兩個函式差異越大;反之,相對熵越小,兩個函式差異越小
3.對於概率分布或者概率密度函式,如果取值均大於零,相對熵可以度量兩個隨機分布的差異性
賈里尼克和現代語言處理
很多歷史偶然性背後有著它必然的原因
學習是一輩子的事
布林代數和搜尋引擎的索引
乙個搜尋引擎三種基本服務:
2.索引---建立快速有效的索引
3.排序---根據相關性對網頁進行公平準確的排序
現代物理研究成果表明:我們的世界實實在在是量子化的而不是連續的。
搜尋引擎之所以能夠在零點零幾秒找到成千上萬的搜尋結果是因為建立了索引,好比拿著圖書館的索引卡片去圖書館找一本書
資料庫的檢索是基於布林運算的
為了范姐資料壓力,需要根據網頁的重要性、質量和訪問的頻率建立常用和非常用等不同級別的索引,常用的索引要求訪問速度快,附加的資訊多,更新也要快。
圖論和網路爬蟲
圖的遍歷方法:深度優先遍歷和廣度優先遍歷
網路爬蟲的工程實現上需要解決的三大細節問題:
1.用bfs和dfs
2.頁面的分析和url的提取
若一些網頁存在,但搜尋引擎沒有收錄,可能的原因就是網路爬蟲中的解析程式沒有成功解析網頁中不規範的指令碼程式
pagerank---google的民主表決式網頁排名技術
pagerank的網頁排名演算法是google革命性的發明
pagerank的核心思想:乙個網頁被很多其他網頁鏈結,說明它受到普遍的承認和信賴,那麼它的排名就高。乙個網頁的排名應該來自於所有指向這個網頁的其他網頁的權重之和,而每個網頁的權重又與網頁的自身的排名有關
《數學之美》筆記1
文字和數字,語言和資訊,從產生的源泉來看,它們有著天然的聯絡。半個多世紀前,夏農博士發明資訊理論,才真正把數學和資訊系統聯絡起來,這也為現代資訊處理技術的發展提供了數學理論支援。原始時代人類通過不同的聲音來傳遞不同的資訊,這就是最原始的資訊形式,只是那時候通過聲音即可傳遞所要傳遞的少量資訊,因此就沒...
「數學之美」筆記
有一天乙個哥們,也許是個賭徒,向棣莫弗提了乙個和賭博相關的問題 a b 兩人在賭場裡賭博,a b 各自的獲勝概率是p,q 1 p p,q 1 pp,q 1 p,賭 n nn 局。兩人約定 若 a 贏的局數 x np x npx np,則 a 付給賭場 x n p x npx np元 若 x xx n...
數學之美筆記2
如何確定網頁和查詢的相關性 某個網頁與某個查詢的相關性 tf1 idf1 tf2 idf2 tfn idfn tfi是查詢中關鍵字i的詞頻,idfi為關鍵字i的重要性權重 逆文字詞頻指數。總之,給定乙個查詢,有關網頁的綜合排名大致由相關性和網頁排名的乘積決定 地圖和本地搜尋的最基本技術 有限狀態機和...