自然語言處理 中文分詞原理

2021-08-20 16:37:57 字數 2268 閱讀 4658

1.1中文分詞概述:

中文分詞:將乙個漢字序列分成乙個乙個的單獨的詞。

分詞:將連續的字序列按照一定的規範重新組合成詞序列的過程。

1.2中文分詞方法:

一般有以下三類:基於詞典匹配的分詞方法基於理解的分詞方法基於統計的分詞方法

1.2.1 基於詞典(字串匹配、機械分詞法)匹配的分詞方法

按照一定的策略將待分析的漢字串乙個機器詞典進行詞條匹配若在詞典中找到某個字串,則匹配成功

按照掃瞄方向不同,字串匹配分詞方法可以分為正向匹配逆向匹配

(1)最大正向匹配法(mm,maximummatching method)

假定分詞詞典中的最長詞有i個漢字字元,用被處理文件的當前字串中的前i個字作為匹配字段,查詢字典。

①若字典中存在這樣的乙個i字詞,則匹配成功,匹配成功欄位被作為乙個詞切分出來;

②若詞典中找不到這樣乙個i字詞,則匹配失敗,將匹配欄位中的最後乙個字去掉;

③對剩下的字串進行重新匹配處理,重複①②過程,直到切分出所有詞為止。

(2)逆向最大匹配法(reversemaximum matching method)

rmm法基本原理與mm法相同,不同的是分詞切分的方向與mm法相反,而且使用的分詞辭典不同;

逆向最大匹配法從被處理文件的末端開始匹配掃瞄,每次取最末端的2i個字元(i字字串)作為匹配字段,若匹配失敗,則去掉匹配欄位最前面的乙個字,繼續匹配。相應地,它使用的分詞詞典是逆序詞典,其中的每個詞條都將按逆序方式存放。

在實際處理時,先將文件進行倒排處理,生成逆序文件,根據逆序詞典,對逆序文件用正向最大匹配法處理即可。

(3)最小切分

使每一句中切出的詞數量最小

(4)雙向匹配法

將正向最大匹配法與逆向最大匹配法組合;

step1:根據標點對文擋進行粗切分,把文擋分解成若干個句子;

step2:對這些句子使用正向最大匹配法和逆向最大匹配法進行掃瞄切分;

step3:若兩種分詞方法得到的匹配結果相同,則認為分詞正確、否則,按最小集處理;

1.2.2基於理解的分詞方法

通過讓計算機模擬人對句子的理解,達到識別詞的效果

基本思想:在分詞的同時進行句法語義分析,利用句法資訊和語義資訊來處理歧義現象。

包括以下幾個部分:分詞子系統、句法語義子系統、總控部分;在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義資訊來對分詞歧義進行判斷。

但由於中文的複雜性,目前還處於研究階段

1.2.3 基於統計的分詞方法

給定大量已經分詞的文字的前提下利用統計機器學習模型學習詞語切分的規律,實現對未知文字的切分。最大熵分詞方法、最大概率分詞方法等。隨著大規模語料庫的建立,統計機器學習方法的研究和發展,基於統計的中文分詞方法漸漸成為主流。

主要統計模型有:n元文法模型(n-gram)馬爾可夫模型(hidden markov model ,hmm)最大熵模型(me)條件隨機場模型(conditional random fields,crf)

在實際的應用中,基於統計的分詞系統需要使用分詞詞典進行字串匹配分詞,同時使用統計方法識別一些新詞,即將字串頻率統計字串匹配結合起來,既發揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優點。

自然語言處理入門 中文分詞原理

1.中文分詞原理介紹 1.1 中文分詞概述 中文分詞 chinese word segmentation 指的是將乙個漢字序列切分成乙個乙個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。1.2 中文分詞方法介紹 現有的分詞方法可分為三大類 基於字串匹配的分詞方法 基於理解的分...

自然語言處理系列六》中文分詞》中文分詞原理

分布式機器學習實戰 人工智慧科學與技術叢書 陳敬雷編著 清華大學出版社 總結中文分詞 chinese word segmentation 指的是將乙個漢字序列切分成乙個乙個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。我們知道,在英文的行文中,單詞之間是以空格作為自然分界符的...

Python自然語言處理之分詞原理

入坑自然語言處理,最基本的就是要做文字挖掘,而首先要做的就是文字的預處理。自然語言處理的主要流程可以表示為 文字 分句 分詞 詞性標註 短語分析 句法分析 語義分析 語篇分析 理解 分句這部分一般有標點符號分割,便於處理。於是首先要做的就是分詞。英文單詞天然有空格隔開容易按照空格分詞,但是也有時候需...