ansj分詞方式詳細解析

2021-07-25 10:45:57 字數 1039 閱讀 5623

toanalysis 精準分詞

精準分詞是ansj分詞的店長推薦款

它在易用性,穩定性.準確性.以及分詞效率上.都取得了乙個不錯的平衡.如果你初次嘗試ansj如果你想開箱即用.那麼就用這個分詞方式是不會錯的.

dicanalysis 使用者自定義詞典優先策略的分詞
使用者自定義詞典優先策略的分詞,如果你的使用者自定義詞典足夠好,或者你的需求對使用者自定義詞典的要求比較高,那麼強烈建議你使用dicanalysis的分詞方式.

可以說在很多方面dic優於toanalysis的結果

nlpanalysis 帶有新詞發現功能的分詞
nlp分詞是總能給你驚喜的一種分詞方式.

它可以識別出未登入詞.但是它也有它的缺點.速度比較慢.穩定性差.ps:我這裡說的慢僅僅是和自己的其他方式比較.應該是40w字每秒的速度吧.

個人覺得nlp的適用方式.1.語法實體名抽取.未登入詞整理.只要是對文字進行發現分析等工作

indexanalysis 面向索引的分詞
面向索引的分詞。顧名思義就是適合在lucene等文字檢索中用到的分詞。主要考慮以下兩點

準確率

baseanalysis 最小顆粒度的分詞
基本就是保證了最基本的分詞.詞語顆粒度最非常小的..所涉及到的詞大約是10萬左右.

基本分詞速度非常快.在macair上.能到每秒300w字每秒.同時準確率也很高.但是對於新詞他的功能十分有限.

名稱

使用者自定義詞典

數字識別

人名識別

機構名識別

新詞發現

baseanalysisxx

xxxtoanalysis√√

√xxdicanalysis√√

√xxindexanalysis√√

√xxnlpanalysis√√

√√

ansj分詞方式詳細解析

toanalysis 精準分詞精準分詞是ansj分詞的店長推薦款 它在易用性,穩定性.準確性.以及分詞效率上.都取得了乙個不錯的平衡.如果你初次嘗試ansj如果你想開箱即用.那麼就用這個分詞方式是不會錯的.dicanalysis 使用者自定義詞典優先策略的分詞使用者自定義詞典優先策略的分詞,如果你的...

Scala使用Ansj分詞

org.ansj ansj seg 5.1.6 org.nlpcn nlp lang 1.7.7 ansj分詞有四種模式 使用者自定義詞典 數字識別 人名識別 機構名識別 新詞發現 使用者自定義詞典 數字識別 人名識別 機構名識別 新詞發現 使用者自定義詞典 數字識別 人名識別 機構名識別 新詞發現...

ansj 分詞系統的詞性

最近做nlp,需要詞性,特地查了下保留下i下來 漢語文字詞性標註標記集 1.名詞 1個一類,7個二類,5個三類 名詞分為以下子類 n 名詞 nr 人名 nr1 漢語姓氏 nr2 漢語名字 nrj 日語人名 nrf 音譯人名 ns 地名 nsf 音譯地名 nt 機構團體名 nz 其它專名 nl 名詞性...