Voosay中文分詞元件V1 0Beta版

2021-04-18 11:50:42 字數 2540 閱讀 2905

2023年6月22日、週日。經過公司同意、voosay團隊向網際網路發布了針對全文檢索和文章聚類/分類的voosay中文分詞元件1.0beta版本。目前網際網路上可免費使用的中文分詞元件數量很少,但卻沒有乙個專門針對全文檢索、文章聚類/分類的分詞元件。為了填補這個空白,我們發布了自主研發的分詞元件,該分詞在全文檢索、文章聚類/分類領域大幅度領先於現有網際網路上的同類軟體,同時在智慧型計算、機器翻譯、問答系統等方面的分詞效果也可以和商業分詞元件媲美。

中文分詞領域的現狀

當前中文分詞應用在國內普及率很低,其中一部分原因是因為研究門檻比較高,另外很多人認為中文分詞是基礎性研究無法快速產生經濟效益;目前研究中文分詞的大多是科研院校,清華、北大、中科院、哈爾濱工業大學、ibm研究院、微軟中國研究院等都有自己的研究隊伍,而真正專業研究中文分詞的商業公司除了海量科技以外,幾乎沒有了。科研院校研究的技術,大部分不能很快產品化,中文分詞技術要想更好的服務於更多的產品需要更多的人、學校、公司的相互合作。

voosay中文分詞元件之外還有其他的選擇

以及ktdictv1.2分詞元件

。當然我們推薦你使用voosay中文分詞。

voosay中文分詞元件與 雨痕的v3 ktdictv1.2的比較

評價乙個中文分詞元件最核心最重要的兩個因素是分詞速度分詞準確性

分詞速度比較

【測試環境:inter e6550 + 1gb kiston*2   測試字數:6209】

voosay v1:

平均耗時:20.8333毫秒   平均分詞速度:298032.048字/秒

雨痕 v3:

平均耗時:621.377毫秒   平均分詞速度:9992.324字/秒

ktdict v1.2:

平均耗時:160.614毫秒  平均分詞速度:38657.900字/秒

測試結果評比:voosay v1分詞元件是ktdict速度的10倍以上,是雨痕v3分詞的100倍以上。

分詞準確度比較

1、隨機抽取句子對比:半夜給拎起來陪看歐洲盃糊著兩眼半晌沒搞明白誰和誰踢

voosay v1:半夜│給│拎│起來│陪│看│歐洲盃│糊│著│兩眼│半晌│沒│搞│明白│誰│和│誰│踢

雨痕v3:半夜│給│拎│起來│陪看│歐洲盃│糊著│兩眼│半晌│沒│搞│明白│誰│和誰│踢

ktdict v1.2:半夜│給│拎│起來│陪看│歐洲盃│糊著│兩│眼│半晌│沒│搞│明白│誰│和│誰踢

2、假歧義句子分詞比較:一次**出去很多錢

voosay v1:一次性│交出│去│很多|錢

雨痕v3:一次性│交出去│很多│錢

ktdict v1.2:一次│**│出去│很多│錢

3、人名識別:李智偉高興興以及王曉薇出去玩,後來智偉和曉薇又單獨去玩了

voosay v1:李智偉|高興興|以及|王曉薇|出去玩|,|後來|智偉|和|曉薇|又|單獨|去|玩了

雨痕v3:李智偉│高興│興│以及│王曉薇│出去│玩│,│後來│智│偉│和│曉│薇│又│單獨│去玩│了

ktdict v1.2:李智偉/高興興/以及/王曉薇/出去/玩/,/後來/智偉/和/曉薇又/單獨/去/玩/了/

測試結果評比:從總體來說voosay v1分詞準確性比其他兩個稍微高一些。如果你不相信,可點這裡親自測試一下voosay v1的分詞準確性。

voosay v1分詞的功能列表

1、內建 30萬漢語常用詞條。

2、中文人名(漢族)識別。

3、多種形式地支援外掛程式擴充套件詞庫。

4、使用簡單。可按預定配置,也可按使用者需要靈活配置。

執行環境

microsoft windows xp / vista / 2003

microsoft .net framework 3.0 / 3.5

簡單幾行**輕鬆實現分詞

1、using voosaysegment;//引入分詞元件

2、var path = 「擴充套件目錄位址」; //定義擴充套件詞典所在目錄

3、var analyzer = analyze***ctory.create(path, false, true, null);  //獲得分析程式例項

4、analyzer.autopersonnameidentify =true;  //是否自動識別未登入人名

5、var list = analyzer.analyze(@」中文分詞元件」);//分詞,得到詞條序列

[內含webform分詞演示程式源**]

中文分詞元件

cmd執行命令 mecab d mecab chinesedic binary wakati wiki.zh.text.jian o wiki.zh.text.jian.seg b 10000000 其中,wiki.zh.text.jian是乙個中文資料集,wiki.zh.text.jian.seg...

scws中文分詞元件

使用類方法分詞 so scws new so set charset gbk 這裡沒有呼叫 set dict 和 set rule 系統會自動試呼叫 ini 中指定路徑下的詞典和規則檔案 so send text 我是乙個中國人,我會c 語言,我也有很多t恤衣服 while tmp so get r...

Lucene中文分詞元件 JE Analysis

採用正向最大匹配的中文分詞演算法,相當於分詞粒度等於0 mmanalyzer analyzer new mmanalyzer 引數為分詞粒度 當字數等於或超過該引數,且能成詞,該詞就被切分出來 mmanalyzer analyzer new mmanalyzer int wordlength 字串切...