scws簡易中文分詞系統

2021-05-21 18:15:11 字數 630 閱讀 3520

一、簡介

scws 是 ****** chinese words segmentation 的縮寫,即簡易中文分詞系統。

這是一套基於詞頻詞典的機械中文分詞引擎,它能將一整段的漢字基本正確的切分成詞。詞是漢語的基本語素單位,而書寫的時候不像英語會在詞之間用空格分開,所以如何準確而又快速的分詞一直是中文分詞的攻關難點。

scws 在概念上並無創新成分,採用的是自行採集的詞頻詞典,並輔以一定程度上的專有名稱、人名、地名、數字年代等規則集,經小範圍測試大概準確率在 90% ~ 95% 之間,已能基本滿足一些中小型搜尋引擎、關鍵字提取等場合運用。 scws 採用純 c **開發,以 unix-like os 為主要平台環境,提供共享函式庫,方便植入各種現有軟體系統。此外它支援 gbk,utf-8,big5 等漢字編碼,切詞效率高。

二、使用方法

5、把php_scws.dll

複製到php 擴充套件資料夾

6、修改php.ini ,加入如下內容:

[scws]

extension=php_scws.dll

scws.default.charset = utf8

scws.default.fpath = "c:/program files/scws"

7、應用

SCWS 中文分詞

第一步 準備好pscws4資料 簡體中文 utf 8 第三步 將解壓出來的pscws4類pscws4.class.php 和 xdb r.class.php 放到 thinkphp library vendor pscws下 第四步 在控制器裡面實力類。function get tags title...

SCWS 中文分詞

scws 注意請檢查 php.ini 中的 extension dir 的設定值是否正確,否則請將 extension dir 設為空,再把 php scws.dll 指定為絕對路徑。extension php scws.dll scws.default.charset gbk scws.defau...

scws簡單中文分詞

demo如下 中文分詞 param keyword param gettop param limit return array function splitwords keyword,gettop false,limit 5 array filepath ini get scws.default.f...