1、apriori演算法是一種挖掘關聯規則的頻繁項集演算法,其核心思想是通過候選集生成挖掘頻繁項集。
2、步驟:
3、概念
對於a->b
①支援度:support = p(a ∩b)
,既有a又有b
的概率②置信度:p(b|a) = p(ab)/p(a),在a
發生的事件中同時發生
b的概率
例如購物籃分析:牛奶 ⇒
麵包例子:[支援度:
3%,置信度:
40%]
支援度3%
:意味著
3%顧客同時購買牛奶和麵包
置信度40%
:意味著購買牛奶的顧客
40%也購買麵包
③如果事件a
中包含k
個元素,那麼稱這個事件a為
k項集事件
a滿足最小支援度閾值的事件稱為頻繁
k項集。
④同時滿足最小支援度閾值和最小置信度閾值的規則稱為強規則
4、尋找頻繁k項集
發現強關聯規則,就必須先找到頻繁集。所謂頻繁集,即支援度大於最小支援度的項集。
對於資料集d,遍歷它的每一條記錄t,得到t的所有子集,然後計算每乙個子集的支援度,最後的結果再與最小支援度比較。
計算量非常巨大,自然是不可取的。所以aprior演算法提出了乙個逐層搜尋的方法。
流程:資料集d->候選1項集c1->頻繁1項集l1->候選2項集c2->頻繁2項集l2->...->候選k項集->頻繁k項集
k候選項集產生的兩條規則:
頻繁項集產生的規則:
5.尋找強規則
流程:頻繁k項集s->s的子集(a, b, c, d, e)->(a-b, a-c, a-d, a-e, b-c, b-d, b-e, c-d, c-e, d-e)中滿足最小置信度閾值的規則。
a-b置信度的計算:conf(a->b) = support(a, b)/support(a)
強規則產生的規則:
強規則a->b:表示購買了a,極有可能購買b。
Apriori演算法整理
首先兩個基本概念 支援度 a事件和b事件同時發生的概率 置信度 在a發生的事件中同時發生b的概率,p b a p ab p a 例子 支援度 3 置信度 40 支援度3 意味著 3 顧客同時購買牛奶和麵包 置信度40 意味著購買牛奶的顧客 40 也購買麵包 智慧型商場模型 目標是找到經常一起購買的物...
Apriori演算法解析
摘要 本演算法主要應用於關聯分析問題 啤酒與尿布 它使用基於支援度的剪枝技術,系統的控制候選集指數增長。關聯規則是形如x y的蘊涵表示式,其中x和y是不相交的項集,即x y 支援度 s s x y count x y n 置信度 c c x y count x y count x count 表示支...
Apriori演算法例項
r.agrawal 和 r.srikant於1994年在文獻中提出了apriori演算法,該演算法的描述如下 下面是乙個具體的例子,最開始資料庫裡有4條交易,使用min support 2作為支援度閾值,最後我們篩選出來的頻繁集為。上述例子中,最值得我們從l2 到c3的這一步。這其實就是在執行偽 中...