最近在申請版署,然後應各種外部不可言明的原因,需要處理下聊天裡邊的敏感詞,本想著去找找有沒成熟的演算法,或許是沒仔細搜尋的原因,看了幾個演算法,都不很好,打算自己實現,思路如下:
1.敏感關鍵字的搜尋字型檔結構
= = ,
= ,...
}2.搜尋演算法過程
檢測串 a = "黑xx好 xa 好 *** 黑1"
(1)拆分檢測串
先將檢測串拆分為陣列,拆分標準為中文拆為單字,空格標點符號都作為分割列。
拆分後如
(2)索檢序列串
遍歷 [拆分好的組]
如果 [檢測字元] : 存在[遮蔽詞字型檔]中
遍歷 : [遮蔽詞片語]
=>[檢測字元] 是英文
判斷 [檢測字元] 與 [檢測字元]
=>[檢測字元] 是中文
組裝 [比較字元] : 長度=[檢測字元],起始=[檢測字元]
判斷 [比較字元] 與 [檢測字元]
mysql 敏感詞 PHP實現的敏感詞過濾方法示例
1 敏感詞過濾方法 todo 敏感詞過濾,返回結果 param array list 定義敏感詞一維陣列 param string string 要過濾的內容 return string log 處理結果 function sensitive list,string if count 0 else ...
trie樹 單詞樹 實現敏感詞遮蔽和詞頻統計
三 實現 前幾天都看乙個敏感詞遮蔽演算法的文章,寫的挺好,順著思路寫了下去,實現了一下,演算法效率還是槓槓的。利用的是單詞樹的演算法,先看看什麼叫單詞樹。單詞樹也叫trie 樹也稱為字典樹。最大的特點就是共享字串的公共字首來達到節省空間的目的。例如,字串 abc 和 abd 構成的單詞樹如下 樹的根...
iOS實現敏感詞的過濾
1.我認為最關鍵的一點 懶。奧!不對!應該是太懶,其實有很多問題都可以通過部落格的形式記錄下來,一方面可以給也遇到該類問題的同伴一種幫助,也可以加深一下自己對一些問題的深入了解和認識。但一直被自己內心的那種慵懶所阻礙著!2.文學水平很差,有的時候在語言的表述上邏輯不夠明了,非常的混亂。也不會使用什麼...