1、什麼是分詞
分詞是指將連續的字序列按照一定的規範重新組合成詞序列的過程。簡而言之,就是將乙個句子中的字重新劃分組合成詞。
2、為什麼要強調中文分詞技術
之所以特地強調中文分詞,是因為中文在行文上的特殊性。
以英文為代表的拉丁語系語言,英文以空格作為天然的分隔符,而中文詞語之間沒有分隔。古代漢語中除了連綿詞和人名地名等,詞通常就是單個漢字,所以當時沒有分詞書寫的必要。而現代漢語中雙字或多字詞居多,乙個字不再等同於乙個詞。所以現代漢語的基本表達單元雖然為詞,但由於人們認識水平的不同,會將乙個句子的詞劃分成不同的樣子。
3、中文分詞技術的作用
中文分詞是***文字挖掘***的基礎。對於輸入的一端中文,如果可以成功的進行中文分詞,可以實現電腦自動識別語句涵義。
中文分詞對於搜尋引擎來說,最重要的是把最相關的結果排在最前面,即***相關度排序***。從定性分析來說,搜尋引擎的分詞演算法不同,詞庫的不同都會影響頁面的返回結果。
4、演算法分類
現有的分詞演算法可分為三大類:基於字串匹配的分詞方法、基於理解的分詞方法和基於統計的分詞方法。按照是否與詞性標註過程相結合,又可以分為單純分詞方法和分詞與標註相結合的一體化方法。
(1)字元匹配
通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就
是在分詞的同時進行句法、語義分析,利用句法資訊和語義資訊來處理歧義現
象。它通常包括三個部分:分詞子系統、句法語義子系統、總控部分。在總控
部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義資訊來對分
詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大
量的語言知識和資訊,目前還處在實驗階段。
(3)統計法
從形式上看,詞是穩定的字的組合,因此在一篇文章中,相鄰字同時出現
的次數越多,越有可能構成乙個詞,因此字與字相鄰共現的頻率能夠較好的
反映成詞的可信度。可以對語料中相鄰共現的各個字的組合的頻度進行統
計,計算它們的互現資訊。定義兩個字的互現資訊,計算兩個漢字x、y的相
鄰共現概率。互現資訊體現了漢字之間結合關係的緊密程度。當緊密程度高
於某乙個閾值時,便可認為此字組可能構成了乙個詞。
5、結巴分詞
結巴分詞涉及到的演算法包括:基於trie樹結構實現高效的詞圖掃瞄,生成句子中漢字所有可能成詞情況所構成的有向無環圖(dag);採用了動態規劃查詢最大概率路徑,找出基於詞頻的最大切分組合;對於未登入詞,採用了基於漢字成詞能力的hmm模型,使用了viterbi演算法。
結巴分詞支援三種分詞模式:
(1)精確模式:試圖將句子最精確地切開,適合文字分析;
(2)全模式:把句子中所有的可以成詞的詞語都掃瞄出來,速度非常快,但是不能解決歧義問題。
(3)搜尋引擎模式:在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜尋引擎分詞。
SolrCloud學習(二)中文分詞
中文分詞 solrcloud自身也支援中文分詞,根據系統需求,我這裡使用了ikanalyzer分詞器。支援solr的ikanalyzer版本是ikanalyzer2012ff u1。第一步 新增ikanalyzer的jar包至lib環境,操作如下 cp ikanalyzer2012ff u1.jar...
自然語言處理系列六》中文分詞》中文分詞原理
分布式機器學習實戰 人工智慧科學與技術叢書 陳敬雷編著 清華大學出版社 總結中文分詞 chinese word segmentation 指的是將乙個漢字序列切分成乙個乙個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。我們知道,在英文的行文中,單詞之間是以空格作為自然分界符的...
中文文字分析(1) 分詞
import jieba import re 資料格式 晚上想吃五花肉土豆蓋澆飯 今晚吃雞嘿咻嘿 綠皮環保小火車進站 一首 夢醒時分 送給大家 具體流程如下 目的 清洗文字中的特殊符號 sentence 晚上想吃五花肉土豆蓋澆飯 今晚吃雞嘿咻嘿 綠皮環保小火車進站 一首 夢醒時分 送給大家 def ...