apriori演算法
所以做如下補充:
關聯規則:形如x→y的蘊涵式,其中, x和y分別稱為關聯規則的先導(antecedent或left-hand-side, lhs)和後繼(consequent或right-hand-side, rhs) 。其中,關聯規則xy,存在支援度和信任度。
置信度:在所有的購買了左邊商品的交易中,同時又購買了右邊商品的交易機率,包含規則兩邊商品的交易次數/包括規則左邊商品的交易次數。
提公升度:(有這個規則和沒有這個規則是否概率會提公升,規則是否有價值):無任何約束的情況下買後項的交易次數/置信度。注意:提公升度必須大於1才有意義。
進入正題啦~
在apriori演算法z中,我們通常使用支援度來作為我們判斷頻繁項集的標準。
apriori演算法的目標是找到最大的k項頻繁集。
補充:apriori定律1:如果乙個集合是頻繁項集,則它的所有子集都是頻繁項集。
舉個栗子:假設乙個集合是頻繁項集,即a、b同時出現在一條記錄的次數大於等於最小支援度min_support,則它的子集,出現次數必定大於等於min_support,即它的子集都是頻繁項集。
apriori定律2:如果乙個集合不是頻繁項集,則它的所有超集都不是頻繁項集。
舉個栗子:假設集合不是頻繁項集,即a出現的次數小於 min_support,則它的任何超集如出現的次數必定小於min_support,因此其超集必定也不是頻繁項集。
輸入:資料集合d,支援度閾值α
輸出:最大的頻繁k項集
1)掃瞄整個資料集,得到所有出現過的資料,作為候選頻繁1項集。k=1,頻繁0項集為空集。
2)挖掘頻繁k項集
a) 掃瞄資料計算候選頻繁k項集的支援度
b) 去除候選頻繁k項集中支援度低於閾值的資料集,得到頻繁k項集。如果得到的頻繁k項集為空,則直接返回頻繁k-1項集的集合作為演算法結果,演算法結束。如果得到的頻繁k項集只有一項,則直接返回頻繁k項集的集合作為演算法結果,演算法結束。
c) 基於頻繁k項集,連線生成候選頻繁k+1項集。
3) 令k=k+1,轉入步驟2。
敲腦殼 重點來啦~
下面這個**是代表乙個事務資料庫d,
其中最小支援度為50%,最小置信度為70%,求事務資料庫中的頻繁關聯規則。
apriori演算法的步驟如下所示:
(1)生成候選頻繁1-專案集c1=,,,,}。
(2)掃瞄事務資料庫d,計算c1中每個專案集在d中的支援度。從事務資料庫d中可以得出每個專案集的支援數分別為3,3,3,1,2,事務資料庫d的專案集總數為4,因此可得出c1中每個專案集的支援度分別為75%,75%,75%,25%,50%。根據最小支援度為50%,可以得出頻繁1-專案集l1=,,,}。
(3)根據l1生成候選頻繁2-專案集c2=,,,,,}。
(4)掃瞄事務資料庫d,計算c2中每個專案集在d中的支援度。從事務資料庫d中可以得出每個專案集的支援數分別為3,2,1,2,1,2,事務資料庫d的專案集總數為4,因此可得出c2中每個專案集的支援度分別為75%,50%,25%,50%,25%,50%。根據最小支援度為50%,可以得出頻繁2-專案集l2=,,,}。
(5)根據l2生成候選頻繁3-專案集c3=,,,},由於c3中專案集中的乙個子集是l2中不存在的,因此可以去除。同理專案集、也可去除。因此c3=。
補充:到這邊 這邊已經是頻繁最大項了 所以在這裡面就可以計算他們的置信度
(6)掃瞄事務資料庫d,計算c3中每個專案集在d中的支援度。從事務資料庫d中可以得出每個專案集的支援數分別為2,事務資料庫d的專案集總數為4,因此可得出c2中每個專案集的支援度分別為50%。根據最小支援度為50%,可以得出頻繁3-專案集l3=}。
(7)l=l1ul2ul3=,,,,,,,,}。
(8)我們只考慮專案集長度大於1的專案集,例如,它的所有非真子集,,,,,,分別計算關聯規則—>,—>,—>,—>,—>,—>的置信度,其值分別為67%,67%,67%,67%,100%,100%。由於最小置信度為70%,可得},—>,—>為頻繁關聯規則。也就是說買麵包和啤酒的同時肯定會買牛奶,買牛奶和啤酒的同時也是會買麵包。
由這個例子可以看出apriori主要是根據 最小支援度來判斷的 逐步遞進
but~這其中也有一些缺點: 從演算法的步驟可以看出,aprior演算法每輪迭代都要掃瞄資料集,因此在資料集很大,資料種類很多的時候,演算法效率很低。
以及圖示栗子
參考:關於apriori演算法的乙個簡單的例子 - 寧靜之家 -
呃呃呃背了兩節課單詞 突然課堂交作業。。。不到10分鐘學完apriori演算法 別說了我和我朋友真牛逼需要補充的就是
計算置信度的話。。。。比如 啤酒牛奶->麵包 分子是麵包出現的次數 /(啤酒牛奶同時出現)的次數 這邊沒有搞清楚。。
補充以及基於雜湊的方法優化
第一圖是通過hash函式(10x+y) % 7 得到的~~~ 所以對於每乙個tid 知道裡面的項,可以兩兩配對之後算
我剛開始不是很明白 後來模擬了一下 比如tid = 1裡面有i1,i2,i5 那麼可以設x = 1,y = 2 或者x = 1 ,y = 5 或者 x = 2,y = 5 通過雜湊函式計算得到之後就扔進桶裡面 over
我是這麼理解的啦
資料探勘 Apriori演算法
今日資料探勘課學習了apriori演算法,特意總結下,因為自己是大三弱雞,很多地方參考了下面dalao的博文 非常感謝!apriori演算法是一種挖掘關聯規則的頻繁項集演算法,其核心思想是通過候選集生成和情節的向下封閉檢測兩個階段來挖掘頻繁項集。而且演算法已經被廣泛的應用到商業 網路安全等各個領域。...
資料探勘演算法 Apriori演算法實戰
apriori演算法是一種用於關聯規則挖掘的代表性演算法,主要任務是用於發現事務之間的內在聯絡。舉個大家都舉爛的例子,超市購物清單,可以事先收集大量的超市購物資料資訊。單號購買商品 0001 牛奶 泡麵 火腿腸 0002 啤酒 洗衣粉 尿布 抹布 0003 巧克力,尿布,蔬菜,水果 0004 蛋糕,...
資料探勘演算法之 apriori
關聯規則之 apriori演算法 實現 2006年5月 include include typedef struct d node 資料庫d typedef struct c node 候選集 typedef struct l node 頻繁集 c node c 100 100 l node l 1...