今天看了數學之美這本書,第三章統計語言模型,只是趣味掃盲類閱讀,並不涉及很深的數學知識。 記錄之。。。
驗證機器是否智慧型
最早提出機器智慧型設想的是計算機之父阿蘭.圖靈,他曾提出乙個方法:讓任何機器進行交流,如果人無法判斷自己交流的物件是人還是機器,那就說明這個機器有智慧型了。
自然語言處理的彎路
最早的科學家們在自然語言處理領域中,侷限在人類學習語言的方式上,讓電腦去模擬人腦,那20多年的成果幾乎為零。因為那時候,全世界對自然語言處理的研究都陷入了乙個誤區! 那時候,科學家們怎麼讓計算機理解語言呢:規則和語法。企圖概括自然語言語法,然後用計算機的演算法描述,從而讓計算機理解語言。
自然語言處理的正確道路
經過了大約15年的時間,科學家們才完成了從彎路規則到正確道路-統計的轉變。 漫長的15年,我們必須承認,乙個新的研究方法的成熟確實需要很多年,然後,第二個作者提出的原因也很有意思: 新的方法代替傳統的方法,需要等原有的一批語言學家退休。。。
統計語言模型
在自然語言處理走上正確的研究道路—統計之後,就很快提出了統計語言模型,它是今天所有自然語言處理的基礎,並且被廣泛應用於機器翻譯、語音識別、拼音糾錯、文獻查詢等。
用數學的方法描述語言的規律,判斷乙個句子是否合理,就看他的可能性大小如何,可能性就用概率來衡量。
簡而言之就是:乙個句子總的概率 = 第乙個詞的概率 * 第乙個詞存在情況下 第二個詞的概率 * 第一 二個詞存在情況下 第三個詞的概率*.......
而現在經常用到的三元模型,google的羅塞塔翻譯系統和語音搜尋系統使用的是四元模型。
這就是數學的魅力,複雜的語言也可以使用數學來解決!
數學之美 統計語言模型
廣泛應用於 機器翻譯,語音識別,印刷體或手寫體的識別,拼音糾錯,漢字輸入和文獻查詢。馬爾科夫假設 n元模型 n 1階馬爾科夫假設 每個詞和前面的n 1個詞有關。n 1的一元模型就是上下文無關模型。實際應用中最多的是n 3的三元模型,更高階的很少使用。google的羅塞塔翻譯系統和語音搜尋系統使用的是...
自然語言處理 統計語言模型(數學之美)
乙個句子是否合理,就看他的可能性大小如何。概括來說 假定s表示某乙個有意義的句子,由一連串特定順序排列的詞w1 w2,wn組成,這裡的n表示句子的長度。則概率p s 表示上面句子的合理性。p s p w1,w2,w n 利用條件概率公式 p w1,w 2,wn p w1 p w2 w1 p w3 w...
1《數學之美》第3章 統計語言模型
163mail luomgf 目錄2 延伸閱讀 統計語言模型的工程訣竅 2.2 模型的訓練 零概率問題和平滑方法 語料庫 begin p s p w 1,w 2,w3,cdots,w n end 根據條件概率公式 begin p w 1 p w 2 w 1 p w 3 w 1,w 2 cdots,p...