計算所漢語詞法分析系統 ictclas
中國科學院計算技術研究所在多年研究基礎上,耗時一年研製出了基於多層隱馬模型的漢語詞法分析系統 ictclas(institute of computing technology, chinese lexical analysis system),該系統的功能有:中文分詞;詞性標註;未登入詞識別。分詞正確率高達97.58%(最近的973專家組評測結果),基於角色標註的未登入詞識別能取得高於90%召回率,其中中國人名的識別召回率接近98%,分詞和詞性標註處理速度為31.5kb/s。ictclas 和計算所其他14項免費發布的成果被中外**廣泛地報道,國內很多免費的中文分詞模組都或多或少的參考過ictclas的**。
因為做畢業設計的原因,才找到了這個工具。再加上兩袖清風,花了好長時間才找到免費版本的,真是不容易呀!所謂前人栽樹,後人乘涼。
作者部落格:http://hi.baidu.com/drkevinzhang/blog/category/ictclas%b7%d6%b4%ca
我用的是windows下c語言呼叫的,它還支援各種平台以及各種語言,都在那個包裡!
等我做完了畢設,再來寫個使用說明... ...
呼叫 ICTCLAS5 分詞的一點問題
下午用ictclas5.0分詞的時候,發現了以前沒注意過的問題。ictclas5.0的庫函式比以前的版本少了,引數也發生了一些變化。以前分詞都是照抄demo,呼叫ictclas paragraphprocess,得到分詞並標註好詞性的結果字元。然後再從結果字串中將詞語乙個個抽取出來。今天才發現庫函式...
Python 結巴分詞(1)分詞
利用結巴分詞來進行詞頻的統計,並輸出到檔案中。結巴分詞的特點 支援繁體分詞 支援自定義詞典 mit 授權協議 演算法 分詞引數 使用者詞典 載入詞典 使用者詞典 userdict.dict 雲計算 5 李小福 2 nr 創新辦 3 i easy install 3 eng 好用 300 韓玉賞鑑 3...
2023年分詞大作業 正向最大匹配
1 語料庫格式 為了防止我們作弊,老師對漢字進行了編碼,讓我們對 加密後 的文字進行分詞 兩個豎線之間的部分對應於乙個詞。首先介紹 正向最大匹配方法 第一步 資料預處理與字典形成 首先語料庫轉化成乙個set格式,set 包含 語料庫中出現的全部詞 import reimport cpickle as...