樸素貝葉斯演算法在垃圾郵件過濾中的應用

2022-04-09 03:46:51 字數 341 閱讀 6827

由於最近在寫一篇關於大資料分類的**(吐槽一下:導師天天催),所以在圖書館借了幾本有關大資料的書籍。今天看《new internet 大資料探勘》(感興趣的可以看一下)中提到垃圾郵件過濾,讓我聯想到昨天在1280社群看到一道名企面試題,「在遊戲實時交流中,怎麼過濾那些廣告?」。當時想到的是關鍵詞過濾,也沒細想。

其實垃圾郵件過濾跟廣告過濾是一種,使用最多的是樸素貝葉斯演算法。

貝葉斯定理是關於隨機事件a和b的條件概率(或邊緣概率)的一則定理。

(參見維基百科

通過對大量已經判定的垃圾郵件和正常郵件進行學習,根據兩種郵件中相同詞語出現的概率對比來確定垃圾郵件的可能性。優點是準確率高,缺點是需要大量的歷史資料。

樸素貝葉斯 垃圾郵件的識別過濾

建立單詞表 defcreatevocablist dataset vocabset set 建立乙個空的集合 for document in dataset vocabset vocabset set document union of the two sets return list vocabs...

02 樸素貝葉斯 垃圾郵件分類

需求說明 chinesespam.xlsx為郵件資料集,stopwords.txt為停用詞資料集 根據現有資料集,採用jieba進行分詞切分,並通過sklearn進行特徵處理 由於樣本特徵是二元離散值或者很稀疏的多元離散值,採用先驗為伯努利分布的樸素貝葉斯進行分類 one host編碼,將所有的詞轉...

樸素貝葉斯演算法

首先樸素貝葉斯分類演算法利用貝葉斯定理來 乙個未知類別的樣本屬於各個類別的可能性,選擇可能性最大的乙個類別作為該樣本的最終類別。對於計算而言,需要記住乙個公式。p c x p x c p c p x 類似於概率論條件概率公式。其中x代表含義為最終類別,例如 yes?no。c為屬性。使用樸素貝葉斯演算...