Trie樹 髒詞過濾應用

2021-06-02 03:03:14 字數 758 閱讀 2563

當前的**還只是進行簡單的替換,並沒有做一些字元的處理,比如「昨天見到你媽,逼我要買房」,這本身不是髒詞,因為有逗號,所以程式裡要增加字元的範圍判斷。

程式中的skip就是用來過濾髒詞的簡單變體,比如「找*小*姐」,預設是最多跳過3個字元,這個可以隨便調整了。總之是乙個trie的鍛鍊吧。

public class trietree

public trietree()

public void addkey(string keyword)

var cnode = this;

foreach (var key in keyword)

else

}cnode.end = true;

}public void replace(ref string text)

else

}if (cnode.end)}}}}}

使用方法如下:

class program

var text = @"我擦啊,尼瑪,我**媽,**** you,你這個妓女,賤人。";

trie.replace(ref text);

console.writeline(text);

console.read();}}

執行的結果:

髒詞過濾 c

1 背景 這個在網路上也叫 敏感詞過濾 比如一些論壇 貼吧,涉及政治類詞 罵爹罵娘的詞,就得過濾掉。我是閒著無聊,就看了下。一開始想著用好幾個replace不就好了嗎,後來網上說這種效率太低了。查了下,發現這一塊還是比較深,最後我找了2種方法 方法是別人寫的,從網上找的 都是精確匹配髒詞的。效率如何...

通過Trie實現違禁詞過濾

敏感詞過濾 生活在 的 必須要有保持和諧的工具。根據 的規模不同選擇不同的技術方案 1.前期上乙個敏感詞過濾系統,發的文章只要命中敏感詞就不讓發。2.後期可以通過機器學習來自動識別一篇簡歷是否是正常簡歷,一篇正常簡歷的特徵還是很明顯的,通過訓練機器識別正常簡歷的語料,能讓機器自動判斷是否是違規資訊。...

Trie樹及其應用

一,知識簡介 trie樹,又稱單詞查詢樹 鍵樹或字首樹。典型應用是用於排序和統計大量字串,但不僅限於於字串,所以經常被搜尋引擎用於文字詞頻統計。它的優點是 最大限度的減少無謂的字串比較,查詢效率比雜湊表高。字典樹的核心思想是以空間換時間,利用字串的公共字首來降低查詢時間開銷來達到提高效率的目的。tr...