2023年美國學者agrawal提出通過分析購物籃中的商品集合,從而找出商品之間關聯關係的關聯演算法,並根據商品之間的關係,找出客戶的購買行為。agrawal從數學及計算機演算法角度提出了商品關聯關係的計算方法——apriori演算法。
沃爾瑪從上個世紀90年代嘗試將aprior算 法引入到pos機資料分析中,並獲得了成功,於是產生了「啤酒與尿布」的故事。
在歷史購物記錄中,一些商品總是在一起購買。但人看上去不是那麼的直觀的,而是隱蔽的。讓計算機做這事,設法計算法讓計算機自動去找,找到這樣的模式(規律)。
a和b一起出現
置信度(區域性): a,b一起出現的次數 佔 購買a次數的 比例
支援度、置信度越大,商品出現一起購買的次數就越多,可信度就越大。
項集:項的集合稱為項集,即商品的組合。
k項集:k種商品的組合,不關心商品件數,僅商品的種類。
項集頻率:商品的購買記錄數,簡稱為項集頻率,支援度計數。
注意,定義項集的支援度有時稱為相對支援度,而出現的頻率(比例)稱為絕對支援度。
頻繁項集:如果項集的相對支援度滿足給定的最小支援度閾值,則該項集是頻繁項集。
強關聯規則:滿足給定支援度和置信度閾值的關聯規則
1、找出總是在一起出現的商品組合
2、提出衡量標準支援度、置信度(達到一定的閾值)
3、給出支援度、置信度直觀計算方法
4、得出在計算方法中起決定因素的是頻繁項集
5、由頻繁項集輕鬆找到強關聯規則
找關聯規則--------->找頻繁項集
步驟:找出所有的頻繁項集;這個項集出現的次數至少與要求的最小計數一樣。如在100次購買記錄中,至少一起出現30次。
由頻繁項集產生強關聯規則;這些關聯規則滿足最小支援度與最小置信度。
1.3.1、先驗性質:頻繁項集的所有非空子集也一定是頻繁的。
1.3.2、逆否命題:若乙個項集是非頻繁的,則它的任何超集也是非頻繁的。
多次資料庫掃瞄
巨大數量的候補項集
繁瑣的支援度計算
減少掃瞄資料庫的次數
減少候選項集的數量
簡化候選項集的支援度計算
機器學習 演算法 Apriori
參考 很多人都喜歡用 啤酒跟尿布 這個例子來比喻機器學習,主要就是想說明apriori在挖掘物件關聯的重要作用,這個演算法很簡單,沒有涉及複雜的數學知識,一點邏輯而已,還有改進的apriori演算法,有時間我也會實現一下 簡單實現了一下apriori,直接上python 和結果 coding utf...
Apriori 演算法學習
近來小看關聯分析的apriori演算法,參考 資料探勘 概念與技術3rd 作此篇。支援度 support support a b p a u b 置信度 confidence confidence a b p b a 項集 itemset 包含k個項的項集成為k項集 頻繁項集 frequent it...
機器學習 Apriori演算法
apriori演算法包含兩部分內容 1,發現頻繁項集 2,挖掘關聯規則。通俗地解釋一下,就是這個意思 1.發現哪些專案常常同時出現 2.挖掘這些常常出現的專案是否存在 如果a那麼b 的關係。舉個例子 購物訂單常常會出現這樣一種情況 那就是某幾種物品常常一起買。比如鍋和鏟子 手機和手機殼等就會常常出現...