當前的**還只是進行簡單的替換,並沒有做一些字元的處理,比如「昨天見到你媽,逼我要買房」,這本身不是髒詞,因為有逗號,所以程式裡要增加字元的範圍判斷。
程式中的skip就是用來過濾髒詞的簡單變體,比如「找*小*姐」,預設是最多跳過3個字元,這個可以隨便調整了。總之是乙個trie的鍛鍊吧。
public class trietree
public trietree()
public void addkey(string keyword)
var cnode = this;
foreach (var key in keyword)
else
}cnode.end = true;
}public void replace(ref string text)
else
}if (cnode.end)}}}}}
使用方法如下:
class program
var text = @"我擦啊,尼瑪,我**媽,**** you,你這個妓女,賤人。";
trie.replace(ref text);
console.writeline(text);
console.read();}}
執行的結果:
髒詞過濾 c
1 背景 這個在網路上也叫 敏感詞過濾 比如一些論壇 貼吧,涉及政治類詞 罵爹罵娘的詞,就得過濾掉。我是閒著無聊,就看了下。一開始想著用好幾個replace不就好了嗎,後來網上說這種效率太低了。查了下,發現這一塊還是比較深,最後我找了2種方法 方法是別人寫的,從網上找的 都是精確匹配髒詞的。效率如何...
通過Trie實現違禁詞過濾
敏感詞過濾 生活在 的 必須要有保持和諧的工具。根據 的規模不同選擇不同的技術方案 1.前期上乙個敏感詞過濾系統,發的文章只要命中敏感詞就不讓發。2.後期可以通過機器學習來自動識別一篇簡歷是否是正常簡歷,一篇正常簡歷的特徵還是很明顯的,通過訓練機器識別正常簡歷的語料,能讓機器自動判斷是否是違規資訊。...
Trie樹及其應用
一,知識簡介 trie樹,又稱單詞查詢樹 鍵樹或字首樹。典型應用是用於排序和統計大量字串,但不僅限於於字串,所以經常被搜尋引擎用於文字詞頻統計。它的優點是 最大限度的減少無謂的字串比較,查詢效率比雜湊表高。字典樹的核心思想是以空間換時間,利用字串的公共字首來降低查詢時間開銷來達到提高效率的目的。tr...