畢業研究進度之中文分詞

2022-08-30 14:18:17 字數 2191 閱讀 5792

由於平時都要去實習實在抽不出時間去搞這個畢設的研究,所以趁著兩天週末的時間集中精力研讀中文分詞的相關文獻。

中文分詞其實也是乙個被許多人做過的課題,並且網上可以隨便搜到不少開源的專案。好吧,經過一系列research,我在這裡總結下現在主流中文分詞的技術。

首先我們要回答乙個問題,就是為什麼要進行中文分詞。詞是最小的能夠獨立活動的有意義的語言成分,英文單詞之間是以空格作為自然分界符的,而漢語是以字為基本的書寫單位,詞語之間沒有明顯的區分標記,因此,中文詞語分析是中文資訊處理的基礎與關鍵。

終於到正文了啊~        

最大正向匹配法(maximum matching method)

這個方法的基本思想為:假定分詞詞典中的最長詞有i個漢字字元,則用被處理文件的當前字串中的前i個字作為匹配字段,查詢字典。若字典中存在這樣的乙個i字詞,則匹配成功,匹配欄位被作為乙個詞切分出來。如果詞典中找不到這樣的乙個i字詞,則匹配失敗,將匹配欄位中的最後乙個字去掉,對剩下的字串重新進行匹配處理……  如此進行下去,直到匹配成功,即切分出乙個詞或剩餘字串的長度為零為止。這樣就完成了一輪匹配,然後取下乙個i字字串進行匹配處理,直到文件被掃瞄完為止。

其演算法描述如下:

(1)初始化當前位置計數器,置為0;

(2)從當前計數器開始,取前2i個字元作為匹配字段,直到文件結束;

(3)如果匹配字段長度不為0,

則查詢詞典中與之等長的作匹配處理。

如果匹配成功,則,

a)把這個匹配字段作為乙個詞切分出來,放入分詞統計表中;

b)把當前位置計數器的值加上匹配欄位的長度;

c)跳轉到步驟2);

否則a) 如果匹配欄位的最後乙個字元為漢字字元,

則①把匹配欄位的最後乙個字去掉;

②匹配字段長度減2;

否則①把匹配欄位的最後乙個位元組去掉;

②匹配字段長度減1;

b)跳轉至步驟3);

否則a)如果匹配欄位的最後乙個字元為漢字字元,

則當前位置計數器的值加2;

否則當前位置計數器的值加1;

b)跳轉到步驟2)。

逆向最大匹配法(reverse maximum matching method)

這個方法的基本原理和正向的是相同的,不同的是分詞切分的方向和正向的相反(感覺的廢話)。逆向最大匹配發從被處理文件的末端開始掃瞄,每次取最末端的2i個字元(i字字串)作為匹配字段,若匹配失敗,則去掉欄位最前面的乙個字,繼續匹配。

由於漢語中偏正結構較多,若從後向前匹配,可以適當提高精確度。所以,逆向最大匹配法比正向最大匹配法的誤差要小。統計結果表明 ,單純使用正向最大匹配的錯誤率為 1/169,單純使用逆向最大匹配的錯誤率為1/245。例如切分字段「碩士研究生產「,正向最大匹配法的結果會是「碩士研究生/產」,而逆向最大匹配法利用逆向掃瞄,可得到正確的分詞結果「碩士 / 研究 / 生產」。

雙向匹配法

將正向最大匹配法與逆向結合起來。先根據標點對文件進行粗切分,把文件分解成若干個句子,然後再對這些句子用正向最大匹配法和逆向最大匹配法進行掃瞄切分。如果兩種分詞的結果是一樣的,那麼說明沒有歧義,分詞成功;但是如果不一樣,則說明有歧義,而該演算法的關鍵也正是在這個消除歧義上面。

常見的歧義消除方法有:選擇分詞數量較少的那個、選擇單字較少的那個、選擇分詞長度方差最小的那個。

其實事實上,罰分的方式多種多樣,上述的兩種方法也不見得就是是有效的,遇到某些情況總有不靈的時候,所以罰分的標準可以從多個角度綜合考慮,非詞典詞罰分,甚至大顆粒度詞積分的策略都是可以被考慮採納的。

除此之外,google黑板報上面提到的統計語言模型演算法非常優秀,當然這個是我在matrix67大牛的部落格上面看到的,因為自從我離開上一次實習的地方,就再也看不到國外的網路世界了,國內的網路根本上不去google黑板報!!!我將原文我認為最有價值的一部分貼在下面:

對於任意兩個詞語 w1 、 w2 ,統計在語料庫中詞語 w1 後面恰好是 w2 的概率 p(w1, w2) 。這樣便會生成乙個很大的二維表。再定義乙個句子的劃分方案的得分為 p(∅, w1) · p(w1, w2) · … · p(wn-1, wn) ,其中 w1, w2, …, wn 依次表示分出的詞。我們同樣可以利用動態規劃求出得分最高的分詞方案。這真是乙個天才的模型,這個模型一併解決了詞類標註、語音識別等各類自然語言處理問題。

至此,我中分分詞的演算法總結就大概告一段落了,在接下來的博文中我會貼出我寫的一些程式。

《中文分詞演算法研究》

看完了才發現作者是經濟管理學院的。這是篇08年的 目前國內外對於中文分詞的主要研究成果分為以下幾種 正向最大匹配法 反向最大匹配方法 分詞與詞性標註一體化方法 最佳匹配法 專家系統方法 最少分詞詞頻選擇方法 神經網路方法等。ictclas institute of computing technol...

SEO的關鍵之中文分詞

中國的文字博大精深,不同的標點符號,不同的斷句就代表著不同的意思。所以,曾經有一位google的科學家說 如果可以做好中文搜尋引擎,那麼我們就不怕任何語種的搜尋引擎研究了。最早的中文分詞辦法是由北京航天航空大學的梁南元教授提出的,一種基於 查字典 的分詞辦法。例如這個句子 著名導演張藝謀說國慶節晚上...

SEO的關鍵之中文分詞

中國的文字博大精深,不同的標點符號,不同的斷句就代表著不同的意思。所以,曾經有一位google的科學家說 如果可以做好中文搜尋引擎,那麼我們就不怕任何語種的搜尋引擎研究了。最早的中文分詞辦法是由北京航天航空大學的梁南元教授提出的,一種基於 查字典 的分詞辦法。例如這個句子 著名導演張藝謀說國慶節晚上...