理論的核心:
頻繁專案集的子集仍是頻繁專案集;非頻繁專案集的超集是非頻繁專案集。這個理論一直作為經典的資料探勘理論被應用。
如果專案集x是頻繁專案集,那麼它的所有非空子集都是頻繁專案集。
如果專案集x是非頻繁專案集,那麼它的所有超集都是非頻繁專案集。
題目:資料庫有5個事務。設min_sup=60%,min_conf=80%。
(1)使用apriori演算法找出所有頻繁項集。
(2)列舉兩條強關聯規則。
解:(1)確定最小事物支援度計數為5*60%=3。
(2)確定最小可信度為80%。
a.頻繁專案集l1=,l1的非空子集s1有,,,,,,可得到關聯規則如下:
e∧k->o cf=3/4=75%
e∧o->k cf=3/3=100%
k∧o->e cf=3/3=100%
e->k∧o cf=3/4=75%
k->e∧o cf=3/5=60%
o->e∧k cf=3/3=100%
最終輸出的關聯規則為:
e∧o->k cf=3/3=100%
k∧o->e cf=3/3=100%
o->e∧k cf=3/3=100%
b.對於頻繁專案集同理。
(1)
資料探勘十大演算法
資料探勘十大演算法分為c4.5,k means,svm,apriori,em,pagerank,adaboost,knn,bayes,cart十種演算法。c4.5 關聯演算法 id3。關係 c4.5是id3的改進。決策樹演算法的一種。k means 聚類演算法。svm 支援向量機。apriori 關...
資料探勘十大演算法 SVM
support vector classifier svc 與support vector regressor svr 函式間隔 mi n w x b 此時如果我們倍增w,b 可以無限擴大函式間隔,因此,它並不能作為標準 幾何間隔,是歸一化的函式間隔 mi n w x b w 為了方便討論,令幾何間...
資料探勘的十大演算法
按照不同的目的將演算法分成四類 分類演算法 c4.5 樸素貝葉斯,svm,knn adaboost cart 聚類演算法 k means em 關聯分析 apriori 連線分析 pagerank c4.5 演算法是十大演算法之首,它是決策樹的演算法,它在決策樹夠早過程中就進行了剪枝處理,並且可以處...