friso是使用c語言開發的一款高效能中文分詞器,使用流行的mmseg演算法實現。完全基於模組化設計和實現,可以很方便的植入到其他程式中,例如:mysql,php等。同時支援對utf-8/gbk編碼的切分。
sam:關於mmsseg的理解見:
【原始碼無需修改就能在各種平台下編譯使用,載入完20萬的詞條,記憶體占用穩定為14.5m。】
1。目前最高版本:friso 1.6.0,同時支援對utf-8/gbk編碼的切分。
2。mmseg四種過濾演算法,分詞準確率達到了98.41%,請參考本演算法的原作:
3。支援自定義詞庫。在dict資料夾下,可以隨便新增/刪除/更改詞庫和詞庫詞條,並且對詞庫進行了分類。
4。簡體/繁體/簡體混合支援, 可以方便的針對簡體,繁體或者簡繁體切分。同時還可以以此實現簡繁體的相互檢索。
5。支援中英/英中混合詞的識別(維護詞庫可以識別任何一種組合)。例如:卡拉ok, 漂亮mm, c語言,ic卡,哆啦a夢。
7。很好的英文支援,英文標點組合詞識別, 例如c++, c#, 電子郵件,**,小數,百分數。
8。(!new)自定義保留標點:你可以自定義保留在切分結果中的標點,這樣可以識別出一些複雜的組合,例如:c++, k&r,code.google.com。
9。(!new)10。支援阿拉伯數字/小數基本單字單位的識別,例如2023年,1.75公尺,5噸,120斤,38.6℃。
11。自動英文圓角/半形,大寫/小寫轉換。
12。同義詞匹配:自動中文/英文同義詞追加. (需要在friso.ini中開啟friso.add_syn選項)。
13。自動中英文停止詞過濾。(需要在friso.ini中開啟friso.clr_stw選項)。
14。多配置支援, 安全的應用於多程序/多執行緒環境。
15。提供friso.ini配置檔案, 可以依據你的需求輕鬆打造適合於你的應用的分詞。
測試環境:2.8ghz/2g/ubuntu
簡單模式:3.8m/秒
複雜模式:1.8m/秒
1.文字1:
歧義和同義詞:研究生命起源,混合詞: 做b超檢查身體,x射線本質是什麼,今天去奇都ktv唱卡拉ok去,哆啦a夢是乙個動漫中的主角,單位和全形: 2023年8月6日開始大學之旅,岳陽今天的氣溫為38.6℃, 也就是101.48℉, 英文數字: bug report [email protected] or visit we all admire the hacker spirit!特殊數字: ① ⑩ ⑽ ㈩.
friso分詞結果:
2.文字2:
叔叔親了我媽媽也親了我
friso分詞結果:
叔叔 親了 我 媽媽 也 親了 我
win下如何自己編譯安裝friso?
詳情,請參考附件中的friso開發幫助文件。
1.分詞介面樣板:
friso_t friso;friso_config_t config
;friso_task_t task
;//1.例項化乙個friso分詞例項。
friso
=friso_new
();//2.建立乙個friso分詞配置。
config
=friso_new_config
();//3. 依據給定的friso.ini中快捷初始化friso。if(
friso_init_from_ifile
(friso
,config
,__path__)!=
1)//4.建立乙個分詞任務:
task
=friso_new_task
();//3.設定分詞任務的分詞文字:
friso_set_text
(task
,"要被分詞的文字"
);//4.分詞主程式:
while((
friso_next
(friso
,config
,task ))
!=null
)friso_free_task
(task
);err
:friso_free_config
(config
);friso_free
(friso
);
XCharts開源庫介紹
博物納新 是uwa旨在為開發者推薦新穎 易用 有趣的開源專案,幫助大家在專案研發之餘發現世界上的熱門專案 前沿技術或者令人驚嘆的視覺效果,並探索將其應用到自己專案的可行性。很多時候,我們並不知道自己想要什麼,直到某一天我們遇到了它。圖表 chart 是我們最為廣泛使用的資料視覺化工具。對於簡單的圖表...
訊號處理開源庫SP 介紹
sp signal processing in c 是乙個關於訊號處理與數值計算的開源 c 程式庫,該庫提供了訊號處理與數值計算中常用演算法的 c 實現。sp 中所有演算法都以 c 類模板方法實現,以標頭檔案形式組織而成,所以不需要使用者進行本地編譯,只要將相關的標頭檔案包含在專案中即可使用。h 表...
C 開源資料庫介紹
1 前言 今天給大家介紹乙個記憶體資料庫,純c 寫的。sharphsql。這個資料庫我的意見是 對於大量高併發的情況最好還是不要用這個資料庫。可能有些朋友會問 那你還給大家介紹?呵呵,別慌,我們雖然不能在開發環境運用這個框架,但是我們可以看看他是怎麼一步一步實現了資料庫的。有些地方和oracle的邏...