一、jieba分詞特點:支援3種分詞模式;支援繁體分詞;支援自定義詞典。
二、jieba分詞的過程:
1、基於字首詞典實現詞圖掃瞄,生成句子中所有可能的詞語構成有向無環圖(dag),採用動態規劃方法尋找最大概率的路徑,即基於詞頻的最大切分組合;
2、對於未登入詞,採用了hmm模型,並用維特比演算法進行計算
3、基於維特比演算法的詞性標註
同2類似,轉換成序列標註問題。jieba在分詞的時候,同時進行分詞和詞性標註。詞性標註時,則首先基於正規表示式(漢字)進行判斷,如果是漢字:則基於字首詞典構建dag,然後計算最大概率路徑,同時查詢所分出的詞的詞性,如果沒有找到,則將其詞性標註為x;如果是hmm標誌位置位,並且該詞為未登入詞,則通過hmm對其進行詞性標註;如果是其他,則根據正規表示式判斷其型別,標註為x,m(數詞),eng(英文)等。
jieba分詞的流程圖如下:
三、jieba分詞的不足:
1、dict.txt字典占用記憶體為140多m,占用記憶體過多。且該詞典是通用詞典,通用詞的分割有效果,但是對於專業領域的分詞則效果不好,需要自備專業領域詞典進行分詞。
2、hmm識別新詞在時效性是不足的,並且只能識別2個字的詞,對於3個字的詞,識別能力有限,
3、ner效果不夠好。
4、不能進行句法分析和語義分析。
Lucene 中文分詞的理解
中文與西方文字不同,西方文字如英文的單詞間有空格作為分隔,計算機很容易把乙個個詞分開。而中文句子裡的之間沒有分隔,要把中文句子拆分成詞就需要使用中文分詞技術。由於全文索引採用的是倒排索引技術,所以分詞的效果直接決定了搜尋的效果。目前的中文分詞技術主要有 n元切分 最長匹配 最大壓縮 統計語言模型等方...
搜尋引擎(2) 查詢理解 分詞
分詞是搜尋中最基本也是非常重要的乙個功能,正確的分詞是好的搜尋效果的必要條件。1.分詞粒度 分詞中,最主要的問題是分詞粒度問題。例如 射鵰英雄傳 下面的幾種分詞方式,哪一種最正確?最細粒度分詞 射鵰,英雄,傳 正常粒度分詞 射鵰,英雄傳 最粗粒度分詞 射鵰英雄傳 混合粒度分詞 射鵰,射鵰英雄傳,英雄...
英文分詞和中文分詞
由於英語的基本組成單位就是詞,所以相對來說簡單很多。大致分為三步 3s 根據空格拆分單詞 split 排除停止詞 stop word 提取詞幹 stemming 1 根據空格拆分單詞 這一步是是最簡單的一步,英語的句子基本上就是由標點符號 空格和詞構成,那麼只要根據空格和標點符號將詞語分割成陣列即可...