scws – 簡易中文分詞系統
scws 在概念上並無創新成分,採用的是自行採集的詞頻詞典,並輔以一定程度上的專有名稱、人名、地名、數字年代等規則集,經小範圍測試大概準確率在 90% ~ 95% 之間,已能基本滿足一些中小型搜尋引擎、關鍵字提取等場合運用。 scws 採用純 c **開發,以 unix-like os 為主要平台環境,提供共享函式庫,方便植入各種現有軟體系統。此外它支援 gbk,utf-8,big5 等漢字編碼,切詞效率高。
系統平台:windows/unix
開發語言:c
使用方式:php擴充套件
演示**:
開源官網:
晴楓附註:作為php擴充套件,容易與現有的基於php架構的web系統繼續整合,是其一大優勢。
scws(****** chinese words segmentation 簡易中文分詞系統)採用了最傳統的,基於詞頻的機械分詞演算法,它的辭典更新很頻繁,最新版本的辭典已經包含了28萬的詞彙,詞庫夠大,標稱速度可以達到1.2mb/s,最重要的是,開源,無授權問題。
由於是c開發的,看著有些繁瑣,基本過程是:
(1)載入詞庫
(2)可選載入規則
(3)分詞
SCWS 中文分詞
第一步 準備好pscws4資料 簡體中文 utf 8 第三步 將解壓出來的pscws4類pscws4.class.php 和 xdb r.class.php 放到 thinkphp library vendor pscws下 第四步 在控制器裡面實力類。function get tags title...
SCWS 中文分詞
scws 注意請檢查 php.ini 中的 extension dir 的設定值是否正確,否則請將 extension dir 設為空,再把 php scws.dll 指定為絕對路徑。extension php scws.dll scws.default.charset gbk scws.defau...
scws簡單中文分詞
demo如下 中文分詞 param keyword param gettop param limit return array function splitwords keyword,gettop false,limit 5 array filepath ini get scws.default.f...