題記:
近來關於資料探勘學習過程中,學習到樸素貝葉斯運算roc曲線。也是本節實驗課題,roc曲線的計算原理以及如果統計tp、fp、tn、fn、tpr、fpr、roc面積等等。往往運用roc面積評估模型準確率,一般認為越接近0.5,模型準確率越低,最好狀態接近1,完全正確的模型面積為1.下面進行展開介紹:
roc曲線的面積計算原理
一、樸素貝葉斯法的工作過程框架圖
二、利用weka工具,找到訓練的預處理資料
1、利用樸素貝葉斯演算法對weather.nominal.arff檔案進行處理,然後選擇temperature開啟,選擇編輯找到預處理資料如圖1-1所示:
圖1-1 完整天氣資料資訊圖
2、根據上面的訓練元組計算每個類的先驗概率,公式為p(c)
2.1、計算先驗概率
p(play=yes)=9/14=0.643
p(play=no)=5/14=0.357
2.2、 計算條件概率,根據公式p(x|c)
3、再根據公式(展示其中乙個元組進行概率分類
x= (outlook=sunny,temperature=mid,humidity=yes,windy=sunny))
代入上述資料:
3.1、
p(x|paly=yes)=p(outlook=sunny|play=yes)* p(temperature=mid|play=yes)* p(humidity=yes|play=yes)* p (outlook=sunny|play=yes))
同理計算:p(x|paly=no)
3.2、通過結果比較,得出元組play
3.3、然後進行概率的計算
4、再引用《資料探勘概念與技術》中p244頁方法,如圖1-2所示:
圖1-2 返回資料樣例
如上圖為樣例非真實資料:因為根據3.3可以計算每個元組的概率,利用概率大小進行類的排序。再根據先驗概率進行tp、fp、tn、fn的真實資料,並且不難算出tpr和fpr的資料
5、再引用《資料探勘概念與技術》中p245頁知識,以fpr作為x軸,tpr作為y軸,繪製資料的roc曲線,將4中的資料分別代入進去,得到如圖1-3所示:
圖1-3 返回資料圖
根據以上圖形,利用數學方法得到roc曲線面積為0.9222.然後再利用weka檢視工具資料,如圖1-4所示:
圖1-4 weka返回資料
資料探勘之樸素貝葉斯演算法
樸素貝葉斯演算法思想 舉個例子,假如某天是否要出去打網球,有兩種選擇 是和否,即最後分成兩個類別。但是受3個因素的影響,分別是天氣 溫度和是否有風。天氣有3個值 晴 多雲和有雨。溫度有3個值 高,正常和低。是否有風有兩個值 是和否。假如樣本a是,樣本b是,還有其他的樣本,可以得到樣本的某些先驗概率,...
樸素貝葉斯演算法
首先樸素貝葉斯分類演算法利用貝葉斯定理來 乙個未知類別的樣本屬於各個類別的可能性,選擇可能性最大的乙個類別作為該樣本的最終類別。對於計算而言,需要記住乙個公式。p c x p x c p c p x 類似於概率論條件概率公式。其中x代表含義為最終類別,例如 yes?no。c為屬性。使用樸素貝葉斯演算...
樸素貝葉斯演算法
計算貝葉斯定理中每乙個組成部分的概率,我們必須構造乙個頻率表 因此,如果電子郵件含有單詞viagra,那麼該電子郵件是垃圾郵件的概率為80 所以,任何含有單詞viagra的訊息都需要被過濾掉。當有額外更多的特徵時,此概念的使用 利用貝葉斯公式,我們可得到如下概率 分母可以先忽略它,垃圾郵件的總似然為...