資料探勘十大演算法之Appriori演算法

2021-07-03 10:08:26 字數 807 閱讀 9898

理論的核心:

頻繁專案集的子集仍是頻繁專案集;非頻繁專案集的超集是非頻繁專案集。這個理論一直作為經典的資料探勘理論被應用。

如果專案集x是頻繁專案集,那麼它的所有非空子集都是頻繁專案集。

如果專案集x是非頻繁專案集,那麼它的所有超集都是非頻繁專案集。

題目:資料庫有5個事務。設min_sup=60%,min_conf=80%。

(1)使用apriori演算法找出所有頻繁項集。

(2)列舉兩條強關聯規則。

解:(1)確定最小事物支援度計數為5*60%=3。

(2)確定最小可信度為80%。

a.頻繁專案集l1=,l1的非空子集s1有,,,,,,可得到關聯規則如下:

e∧k->o   cf=3/4=75%

e∧o->k  cf=3/3=100%

k∧o->e   cf=3/3=100%

e->k∧o   cf=3/4=75%

k->e∧o   cf=3/5=60%

o->e∧k   cf=3/3=100%

最終輸出的關聯規則為:

e∧o->k   cf=3/3=100%

k∧o->e   cf=3/3=100%

o->e∧k   cf=3/3=100%

b.對於頻繁專案集同理。

(1)

資料探勘十大演算法

資料探勘十大演算法分為c4.5,k means,svm,apriori,em,pagerank,adaboost,knn,bayes,cart十種演算法。c4.5 關聯演算法 id3。關係 c4.5是id3的改進。決策樹演算法的一種。k means 聚類演算法。svm 支援向量機。apriori 關...

資料探勘十大演算法 SVM

support vector classifier svc 與support vector regressor svr 函式間隔 mi n w x b 此時如果我們倍增w,b 可以無限擴大函式間隔,因此,它並不能作為標準 幾何間隔,是歸一化的函式間隔 mi n w x b w 為了方便討論,令幾何間...

資料探勘的十大演算法

按照不同的目的將演算法分成四類 分類演算法 c4.5 樸素貝葉斯,svm,knn adaboost cart 聚類演算法 k means em 關聯分析 apriori 連線分析 pagerank c4.5 演算法是十大演算法之首,它是決策樹的演算法,它在決策樹夠早過程中就進行了剪枝處理,並且可以處...