呼叫 ICTCLAS5 分詞的一點問題

2021-05-25 04:46:43 字數 647 閱讀 3839

下午用ictclas5.0分詞的時候,發現了以前沒注意過的問題。

ictclas5.0的庫函式比以前的版本少了,引數也發生了一些變化。

以前分詞都是照抄demo,呼叫ictclas_paragraphprocess,得到分詞並標註好詞性的結果字元。然後再從結果字串中將詞語乙個個抽取出來。

今天才發現庫函式中還有ictclas_paragraphprocessa這個好東西。該函式返回的是詞串結構的陣列,省去了呼叫paragraphprocess後還要逐個抽取單詞的過程。該函式唯一的不便就是,詞串結構體tagictclas_result中沒有直接儲存切分後的詞語,而是儲存了詞語在源串中的起始位置和長度。不過有了位置和長度,提取詞串便再容易不過了。

值得注意的是,用ictclas5分詞時,空格被作為標點符號處理。比如對於乙個英文句子「hello world !」

呼叫ictclas_paragraphprocess分詞的結果是  「hello/x  world/x  !/wt」,看似沒有處理空格。

而呼叫ictclas_paragraphprocessa是可以看到「hello/x  /w  world/x  /w !/wt」。空格是被當做標點符號處理的。

空格並不是乙個具有意義的單位,對於分詞後的應用是有影響的。因此,要注意規避。

關於敏感詞過濾的一點想法

對濾詞表中的每個單詞做一次hash,以hash雜湊值作為key,單詞內容作為value 2.1起始符表 將濾詞表中每個單詞的起始字元構建成乙個表,作為起始符表 startlist 2.2結束符表 將濾詞表中每個單詞的結束字元構建成乙個表,作為結束符表 endlist 1.1 如果匹配到起始字元,搜尋...

複習Amazon Dynamo設計的一點分享

author 文初 email wenchu.cenwc alibaba inc.com blog 什麼是 dynamo?dynamo 是amazon 的高效key value 儲存基礎元件 類似於現在被廣泛應用的 memcached cache 當前被用於 amazon 很多系統中作為狀態管理元件...

DWR同步呼叫的一點改進

dwr提供的js方法呼叫預設是非同步的,為了得到同步的執行結果,一般類似以下方式處理 dwrengine.setasync false 設定成同步 var data null test1ajax.sayhello hello function data dwr呼叫服務端的函式 dwrengine.s...