千萬級敏感詞過濾設計

2021-08-30 15:29:09 字數 378 閱讀 6578

系統有千萬級的禁詞需要去過濾

當中包含人名 特殊符號組成的語句 ** 單字組合成的敏感詞 等等

1.解決千萬級禁詞儲存及查詢問題

2.解決被過濾文字內容過多問題

1.採用es作為禁詞庫 千萬級資料檢索時間在毫秒級滿足需求

2.不適用分詞器需要完整匹配 分詞後很多詞都是合法的 組合之後才是敏感詞

3.被過濾文字內容分詞不完整 利用ik分詞器分詞結果不適合現在的業務場景

只能採用字串分割的方式來匹配es庫

帶來的問題就是效率低下同步多執行緒下千字也需要將近4秒

考慮採用非同步模式來解決大資料量需要審核狀態

敏感詞過濾

最近需要實現對聊天裡的敏感詞過濾,要求比較簡單,只需要對字型檔中存在的關鍵字進行匹配,所以不需要非常複雜的實現,但是需要能夠快速地對乙個關鍵字集合進行匹配。搜了一下相關的資料,比較簡單的乙個演算法是使用aho corasick演算法,以下簡稱ac演算法。該演算法的基本思想中包含了kmp演算法,即利用...

敏感詞過濾

敏感詞過濾 防沉迷,基本所有上線系統都會用的基礎功能吧,網上挺多 的,也很多種方式,看的有點繞寫了個自己感覺比較乾淨清楚的,結構也比較簡單,記錄一下insert 和 審查 檢查 都是遞迴,效率還好,win release版本5700的樣本,length 1000的 str 大概0.2ms支援比如敏感...

敏感詞過濾

分享乙個敏感詞過濾方法 1 public class wordfiltercontroller basecontroller 225 result str result 2627 if s filters null 28 3132 bool check false 33 foreach string...