基本概念:
二院表示:每一行對應乙個事務,每一列對應乙個項,項用二元變數表示;
項集:包括0個或多個項的集合,包含k個稱為k-項集;
事物的寬度:事務中項的個數;
頻繁項集:滿足最小支援度閾值的所有項集;
強規則:頻繁項集中提取出的高置信度的規則;
關聯規則三個指標:
support(支援度):表示a和b的事務所佔所有事務的比例,support=p(a&b);
confidence(置信度):表示包含a的事務中同時包含b的比例,confidence=p(a&b)/p(a);
lift(提公升度):表示confidence與p(b)的比值,lift=(p(a&b)/p(a))/p(b)=p(a&b)/p(a)/p(b);其值反映a、b的相關性,越》1正相關越高,越<1負相關越高,=1不相關;一般》3為認可關聯標準;
import org.apache.spark.sql.sqlcontext
import org.apache.spark.
object
test )
/*** (mi,google,0.3333333333333333,1.0,0.3333333333333333)
*/resultrdd.collect.foreach(println)
// 最後可以過濾掉數值太低的
// 支援度的閾值是1%,置信度閾值50%
val support = 0.01
val confidence = 0.5
resultrdd.filter(a => a._3 > support && a._4 > confidence && a._5 > confidence).collect().foreach(println)
}}
資料探勘學習筆記 頻繁模式和關聯規則
關聯規則挖掘是從交易資料庫 關聯式資料庫以及其他的資料集中發現項或物件的頻繁模式 frequent patterns 關聯 associations 的過程。支援度 support 支援度指交易包含項集x的概率 百分數 support x count x d 100 其中d的模表示交易的個數 若su...
頻繁項集與關聯規則挖掘 1
我計畫整理資料探勘的基本概念和演算法,包括關聯規則挖掘 分類 聚類的常用演算法,敬請期待。今天講的是關聯規則挖掘的最基本的知識。關聯規則挖掘在電商 零售 大氣物理 生物醫學已經有了廣泛的應用,本篇文章將介紹一些基本知識和aprori演算法。啤酒與尿布的故事已經成為了關聯規則挖掘的經典案例,還有人專門...
資料探勘 挖掘頻繁模式 關聯和相關 1
學習是一件很苦的事情,但是有時卻是一件很神奇的事情,神奇到原本很抽象枯燥的知識點你卻可以取其精華的理解,這時效率最高 此時務必將心得寫下 以下讀書筆記來自我在閱讀 資料探勘 概念與技術 的一點感受 所謂挖掘頻繁模式,關聯和相關,即指在出現的資料集中找到乙個經常出現的序列模式或者是乙個經常出現的資料結...