1.1中文分詞概述:
中文分詞:將乙個漢字序列分成乙個乙個的單獨的詞。
分詞:將連續的字序列按照一定的規範重新組合成詞序列的過程。
1.2中文分詞方法:
一般有以下三類:基於詞典匹配的分詞方法、基於理解的分詞方法和基於統計的分詞方法。
1.2.1 基於詞典(字串匹配、機械分詞法)匹配的分詞方法
按照一定的策略將待分析的漢字串與乙個機器詞典進行詞條匹配,若在詞典中找到某個字串,則匹配成功。
按照掃瞄方向不同,字串匹配分詞方法可以分為正向匹配和逆向匹配;
(1)最大正向匹配法(mm,maximummatching method)
假定分詞詞典中的最長詞有i個漢字字元,用被處理文件的當前字串中的前i個字作為匹配字段,查詢字典。
①若字典中存在這樣的乙個i字詞,則匹配成功,匹配成功欄位被作為乙個詞切分出來;
②若詞典中找不到這樣乙個i字詞,則匹配失敗,將匹配欄位中的最後乙個字去掉;
③對剩下的字串進行重新匹配處理,重複①②過程,直到切分出所有詞為止。
(2)逆向最大匹配法(reversemaximum matching method)
rmm法基本原理與mm法相同,不同的是分詞切分的方向與mm法相反,而且使用的分詞辭典不同;
逆向最大匹配法從被處理文件的末端開始匹配掃瞄,每次取最末端的2i個字元(i字字串)作為匹配字段,若匹配失敗,則去掉匹配欄位最前面的乙個字,繼續匹配。相應地,它使用的分詞詞典是逆序詞典,其中的每個詞條都將按逆序方式存放。
在實際處理時,先將文件進行倒排處理,生成逆序文件,根據逆序詞典,對逆序文件用正向最大匹配法處理即可。
(3)最小切分
使每一句中切出的詞數量最小
(4)雙向匹配法
將正向最大匹配法與逆向最大匹配法組合;
step1:根據標點對文擋進行粗切分,把文擋分解成若干個句子;
step2:對這些句子使用正向最大匹配法和逆向最大匹配法進行掃瞄切分;
step3:若兩種分詞方法得到的匹配結果相同,則認為分詞正確、否則,按最小集處理;
1.2.2基於理解的分詞方法
通過讓計算機模擬人對句子的理解,達到識別詞的效果。
基本思想:在分詞的同時進行句法語義分析,利用句法資訊和語義資訊來處理歧義現象。
包括以下幾個部分:分詞子系統、句法語義子系統、總控部分;在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義資訊來對分詞歧義進行判斷。
但由於中文的複雜性,目前還處於研究階段
1.2.3 基於統計的分詞方法
在給定大量已經分詞的文字的前提下,利用統計機器學習模型學習詞語切分的規律,實現對未知文字的切分。最大熵分詞方法、最大概率分詞方法等。隨著大規模語料庫的建立,統計機器學習方法的研究和發展,基於統計的中文分詞方法漸漸成為主流。
主要統計模型有:n元文法模型(n-gram)馬爾可夫模型(hidden markov model ,hmm)最大熵模型(me)條件隨機場模型(conditional random fields,crf)
在實際的應用中,基於統計的分詞系統需要使用分詞詞典來進行字串匹配分詞,同時使用統計方法識別一些新詞,即將字串頻率統計和字串匹配結合起來,既發揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優點。
自然語言處理入門 中文分詞原理
1.中文分詞原理介紹 1.1 中文分詞概述 中文分詞 chinese word segmentation 指的是將乙個漢字序列切分成乙個乙個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。1.2 中文分詞方法介紹 現有的分詞方法可分為三大類 基於字串匹配的分詞方法 基於理解的分...
自然語言處理系列六》中文分詞》中文分詞原理
分布式機器學習實戰 人工智慧科學與技術叢書 陳敬雷編著 清華大學出版社 總結中文分詞 chinese word segmentation 指的是將乙個漢字序列切分成乙個乙個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。我們知道,在英文的行文中,單詞之間是以空格作為自然分界符的...
Python自然語言處理之分詞原理
入坑自然語言處理,最基本的就是要做文字挖掘,而首先要做的就是文字的預處理。自然語言處理的主要流程可以表示為 文字 分句 分詞 詞性標註 短語分析 句法分析 語義分析 語篇分析 理解 分句這部分一般有標點符號分割,便於處理。於是首先要做的就是分詞。英文單詞天然有空格隔開容易按照空格分詞,但是也有時候需...