自然語言處理入門 中文分詞原理

2021-09-04 10:50:43 字數 1337 閱讀 1516

1.中文分詞原理介紹

1.1 中文分詞概述

中文分詞(chinese word segmentation) 指的是將乙個漢字序列切分成乙個乙個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。

1.2 中文分詞方法介紹

現有的分詞方法可分為三大類:基於字串匹配的分詞方法、基於理解的分詞方法和基於統計的分詞方法。

1.2.1 基於字串匹配的分詞方法

基於字串匹配的分詞方法又稱機械分詞方法,它是按照一定的策略將待分析的漢字串與乙個「充分大的」機器詞典中的詞條進行配,若在詞典中找到某個字串,則匹配成功(識別出乙個詞)。

按照掃瞄方向的不同,字串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優先匹配的情況,可以分為最大(最長)匹配和最小(最短)匹配;按照是否與詞性標註過程相結合,可以分為單純分詞方法和分詞與詞性標註相結合的一體化方法。常用的字串匹配方法有如下幾種:

(1)正向最大匹配法(從左到右的方向);

(2)逆向最大匹配法(從右到左的方向);

(3)最小切分(每一句中切出的詞數最小);

(4)雙向最大匹配(進行從左到右、從右到左兩次掃瞄)

這類演算法的優點是速度快,時間複雜度可以保持在o(n),實現簡單,效果尚可;但對歧義和未登入詞處理效果不佳。

1.2.2 基於理解的分詞方法

基於理解的分詞方法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法資訊和語義資訊來處理歧義現象。它通常包括三個部分:分詞子系統、句法語義子系統、總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義資訊來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和資訊。由於漢語語言知識的籠統、複雜性,難以將各種語言資訊組織成機器可直接讀取的形式,因此目前基於理解的分詞系統還處在試驗階段。

1.2.3 基於統計的分詞方法

基於統計的分詞方法是在給定大量已經分詞的文字的前提下,利用統計機器學習模型學習詞語切分的規律(稱為訓練),從而實現對未知文字的切分。例如最大概率分詞方法和最大熵分詞方法等。隨著大規模語料庫的建立,統計機器學習方法的研究和發展,基於統計的中文分詞方法漸漸成為了主流方法

主要的統計模型有:n元文法模型(n-gram),隱馬爾可夫模型(hidden markov model ,hmm),最大熵模型(me),條件隨機場模型(conditional random fields,crf)等。

在實際的應用中,基於統計的分詞系統都需要使用分詞詞典來進行字串匹配分詞,同時使用統計方法識別一些新詞,即將字串頻率統計和字串匹配結合起來,既發揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優點。

原文: 

自然語言處理 中文分詞原理

1.1中文分詞概述 中文分詞 將乙個漢字序列分成乙個乙個的單獨的詞。分詞 將連續的字序列按照一定的規範重新組合成詞序列的過程。1.2中文分詞方法 一般有以下三類 基於詞典匹配的分詞方法 基於理解的分詞方法和基於統計的分詞方法。1.2.1 基於詞典 字串匹配 機械分詞法 匹配的分詞方法 按照一定的策略...

自然語言處理入門

1 首先,將原文本拆分為句子,在每個句子中過濾掉停用詞 可以不選 並只保留指定詞性的單詞,由此可以得到句子和單詞的集合。2 每個單詞作為pagerank中的乙個節點。設視窗大小為k,假設乙個句子所組成的單詞可以表示為w1,w2,w3,wn.則w1,w2,wk w2,w3,wk 1 w3,w4,wk ...

自然語言處理系列六》中文分詞》中文分詞原理

分布式機器學習實戰 人工智慧科學與技術叢書 陳敬雷編著 清華大學出版社 總結中文分詞 chinese word segmentation 指的是將乙個漢字序列切分成乙個乙個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。我們知道,在英文的行文中,單詞之間是以空格作為自然分界符的...