一 頻繁二項集
現實中有許多關聯規則挖掘演算法,比如最著名的apriori演算法,以及fp-樹頻集演算法,本例介紹關於商品的頻繁二項集演算法。
二 演算法設計思路
1 將每一筆訂單的商品按照兩兩分組
2 對每個分組的頻數進行統計
3 根據頻數計算支援度和置信度
4 設定支援度與置信度閾值,過濾不達標的資料
三 apache storm實現思路
1 使用redis作為儲存訂單資料的資料庫
2 使用spout從redis中獲取訂單資料
3 使用bolt計算分組頻數
4 使用bolt計算支援度和置信度
5 使用bolt篩選結果並儲存到redis中
四 參考
Spark 頻繁項集挖掘
同步於buracag的部落格 挖掘頻繁專案,專案集,子串行或其他子結構通常是分析大規模資料集的第一步,這是資料探勘多年來一直活躍的研究課題。可以參考一下維基百科中關於關聯規則學習的基礎知識。fp growth演算法在han等人的文章中描述,挖掘頻繁模式而沒有候選生成,其中 fp 代表頻繁模式。給定資...
頻繁模式(項集)挖掘新演算法
我們小組提出了基於模式樹節點集的新穎資料結構,並把這類結構應用到資料探勘核心任務 頻繁模式挖掘中,形成了一系列的演算法,其中包括2010年發表在 international journal of computational intelligence systems 的ppv演算法和2012年發表 s...
頻繁項集與關聯規則挖掘 1
我計畫整理資料探勘的基本概念和演算法,包括關聯規則挖掘 分類 聚類的常用演算法,敬請期待。今天講的是關聯規則挖掘的最基本的知識。關聯規則挖掘在電商 零售 大氣物理 生物醫學已經有了廣泛的應用,本篇文章將介紹一些基本知識和aprori演算法。啤酒與尿布的故事已經成為了關聯規則挖掘的經典案例,還有人專門...