讀書筆記 《數學之美》 中文分詞

2021-07-09 03:08:52 字數 1541 閱讀 1548

《數學之美

⋅ 第二版》第四章

現在中文分詞是乙個已經解決的問題,提公升的空間微乎其微。不值得再去花很大的精力去做研究

1、中文分詞方法的演變(a.)北航的梁南元教授提出的查字典類似的方法,但是對於稍微複雜的句子就無能為力;額;

(b.)20世紀80年代哈工大的王曉龍博士將查字典的方法理論化,發展成最少詞數的分詞理論,但是沒有解決詞語的二義性問題;

(c.)2023年前後,清華大學的郭進博士運用統計語言模型成功解決了分詞的二義性問題。

(d.)清華大學孫茂松教授解決了在沒有詞典時的分詞問題;

(e.)香港科技大學吳德凱教授是較早將中文分詞用於英文片語的分隔,並且將英文片語和中文片語在機器翻譯時對應起來。

2、基於統計語言模型的分詞方法

假定乙個句子

s 可以有幾種分詞方法,為了簡單起見,假定有以下三種:a1

,a2,

a3,.

..,a

kb1,

b2,b

3,..

.,bm

c1,c2,c

3,..

.,cn

其中,a1

,a2,

...,

b1,b

2,..

.,c1

,c2,

... 等都是漢語的詞,上述各種分詞結果可能產生數量不同的詞串,因此用了k,

m,n 三個不同的下標表示這個句子採用不同分詞結果時詞的數目。那麼最好的分詞方法應該保證分詞後這個句子出現的概率最大。也就是說,如果a1

,a2,

a3,.

..,a

k 是最好的的分詞方法,那麼其概率滿足:p(

a1,a

2,a3

,...

,ak)

>p(

b1,b

2,b3

,...

,bm)

並且p(

a1,a

2,a3

,...

,ak)

>p(

c1,c

2,c3

,...

,cn)

因此,只要利用統計語言模型計算出每種分詞後句子出現的概率,並找出其中概率最大的,就能找到最好的分詞方法。

當然,這裡面有乙個實現的技巧。如果,窮舉所有可能的分詞方法並計算出每種可能性下的句子的概率,那麼計算量是相當大的。因此,可以把它看成乙個動態規劃(dynamic programming)的問題,並利用維特比(viterbi) 演算法[1

] 快速地找出最佳分詞。上述過程可以用下圖來描述:

注釋:

[1]維特比演算法暫缺!稍後補上!

讀書筆記 數學之美

1.通訊模型 2.翻譯可行的條件 不同文字在記錄資訊的能力上是等價的,文字只是資訊載體,而非資訊本身。3.資訊的冗餘 是資訊保安的保障。語言的材料 語料 尤其是多語言的對照語料是機器翻譯的基礎。4.資訊的編碼,信源編碼 為了減少信源輸出符號串行中的剩餘度 提高符號的平均資訊量,對信源輸出的符號串行所...

讀書筆記 數學之美 筆記

隨便總結的,書都看了,總要留下點印記不是本質就是乙個編譯碼和傳輸的過程 自然語言處理在過去的30年發生了巨大的變化 構建兩個詞表,乙個是基本詞表,乙個是複合詞表,再根據兩個詞表分表建立兩個語言模型 模型1,模型2,先對句子進行模型1分詞,就得到了小顆粒度的分詞結果,在此基礎上,再用大顆粒度的模型2進...

《數學之美》讀書筆記

通訊六要素 s是可見的 信源 o是不可見的 輸出 信宿 通訊就是要根據觀測到的o恢復出s 對於翻譯問題,漢譯英 英語是s,漢語是o,根據s推斷o tf 詞頻 idf 逆文字頻率指數 以條件隨機場為例,希望找到乙個符合所有邊緣分布的概率分布函式。根據最大熵原則 希望找到乙個符合所有邊緣分布並使熵達到最...