談談分詞(下)

2021-08-01 02:46:37 字數 753 閱讀 1703

分詞的一致性和顆粒度當統計語言模型被廣泛應用後,簡單依靠與人工分詞的結果比較來衡量分詞器的準確性就很難,甚至毫無意義。不能講乙個準確率97%的分詞器一定比95%的好,因為這要看它們選用的所謂正確的人工分詞的資料是如何得來的。我們只能講某個分詞器與另乙個相比,與人工分詞結果的吻合度稍微高一點而已。所幸的是,現在中文分詞是乙個已經解決的問題,提高的空間微乎其微,只要採用統計語言模型,效果都差不多哪去。

在機器翻譯中,一般來講,顆粒度大翻譯效果好,比如「聯想公司」作為整體,很容易翻譯為lenovo,如果分詞將它們分開,就有可能翻譯不好。但是在網頁搜尋中,小的顆粒度更好,比如「清華大學」這四個字如果作為乙個詞,在對網頁分詞後,它是乙個整體,當使用者查詢「清華」時就找不到清華大學了。可以針對不同應用構造不同的分詞器,但是這樣做非常浪費。更好的做法是讓乙個分詞器同時支援不同層次的詞的切分。也就是說,如上面的清華大學,既可以看成整體也可以切分開,然後由不同的應用自行決定切分的粒度。分詞的不一致性可以分為錯誤和顆粒度不一致兩種,錯誤又分兩類,一類是越界型錯誤,比如把「北京大學生」分為「北京大學-生」,另一類是覆蓋性錯誤,比如把「薛之謙」分成了三個字,這些是明顯的錯誤,是改進分詞器時盡可能消除的。顆粒度的不一致性在衡量分詞器的好壞時可以不作為錯誤,以免不同人的看法不同左右來對分詞器的度量。

分詞小結中文分詞以統計語言模型為基礎,經過幾十年的發展和完善,今天基本上可以看做是乙個已經解決的問題。當然不同的人做的分詞器有好有壞,差別主要在於資料的使用和工程實現的精度。分詞部分介紹就這樣,這個系列文章只希望起到乙個小小的科普作用,每個知識點的具體內容得大家自己去研究。

數學之美 系列二 談談中文分詞

2006年4月10日 上午 08 10 00 發表者 吳軍,google 研究員 談談中文分詞 統計語言模型在中文處理中的乙個應用 上回我們談到 利用統計語言模型進行語言處理,由於模型是建立在詞的基礎上的,對於中日韓等語言,首先需要進行分詞。例如把句子 中國航天 應邀到美國與太空總署 開會。分成一串...

數學之美 系列二 談談中文分詞

數學之美 系列二 談談中文分詞 2006年4 月10日上午 08 10 00 發表者 吳軍,google 研究員 談談中文分詞 統計語言模型在中文處理中的乙個應用 上回我們談到利用統計語言模型進行語言處理,由於模型是建立在詞的基礎上的,對於中日韓等語言,首先需要進行分詞。例如把句子 中國航天 應邀到...

數學之美 系列二 談談中文分詞

2006年4月10日 上午 08 10 00 發表者 吳軍,google 研究員 談談中文分詞 統計語言模型在中文處理中的乙個應用 上回我們談到 利用統計語言模型進行語言處理,由於模型是建立在詞的基礎上的,對於中日韓等語言,首先需要進行分詞。例如把句子 中國航天 應邀到美國與太空總署 開會。分成一串...