關聯分析可以用於回答「哪些商品經常被同時購買?」之類的問題
關聯分析是在大規模資料集中尋找有趣關係的任務,這些關係可以有兩種形式:
頻繁項集:是經常出現在一塊兒的物品的集合
關聯規則:按時兩種物品之間可能存在很強的關係。
支援度是針對項集來說的,因此可以定義乙個最小支援度,而只保留滿足最小值尺度的項集。
可信度或者是置信度是針對關聯規則來定義的,我們的規則對其中多少的記錄都適用
apriori演算法是發現頻繁項集的一種方法,apriori演算法的兩個輸入引數分別是最小支援度和資料集,該演算法首先會生成所有單個元素的項集列表。接著掃瞄資料集來檢視哪些項集滿足最小支援度要求,那些不滿足最小支援度的集合會被去掉,然後,對剩下來的集合進行組合以生成包含兩個元素的項集,接下來,再重新掃瞄交易記錄,去掉不滿足最小支援度的項集。該過程重複進行直到所有項集都被去掉。
經典的關聯規則挖掘演算法包括apriori演算法和fp-growth演算法。apriori演算法多次掃瞄交易資料庫,每次利用候選頻繁集產生頻繁集;而fp-growth則利用樹形結構,無需產生候選頻繁集而是直接得到頻繁集,大大減少掃瞄交易資料庫的次數,從而提高了演算法的效率。但是apriori的演算法擴充套件性較好,可以用於平行計算等領域。
使用apriori演算法進行關聯分析。fp-growth演算法來高效發現頻繁項集。
頻繁項集挖掘之apriori和fp growth
apriori和fp growth是頻繁項集 frequent itemset mining 挖掘中的兩個經典演算法,主要的區別在於乙個是廣度優先的方式,另乙個是深度優先的方式,後一種是基於前一種效率較低的背景下提出來的,雖然都是十幾年前的,但是理解這兩個演算法對資料探勘和學習演算法都有很大好處。在...
Apriori演算法和FP growth演算法
經典的關聯規則挖掘演算法包括apriori演算法和fp growth演算法。apriori演算法多次掃瞄交易資料庫,每次利用候選頻繁集產生頻繁集 而fp growth則利用樹形結構,無需產生候選頻繁集而是直接得到頻繁集,大大減少掃瞄交易資料庫的次數,從而提高了演算法的效率。但是apriori的演算法...
Apriori演算法小結
1 apriori演算法是一種挖掘關聯規則的頻繁項集演算法,其核心思想是通過候選集生成挖掘頻繁項集。2 步驟 3 概念 對於a b 支援度 support p a b 既有a又有b 的概率 置信度 p b a p ab p a 在a 發生的事件中同時發生 b的概率 例如購物籃分析 牛奶 麵包例子 支...