用於大量資料中挖掘出有價值的資料項之間的相關關係
常用於使用者購物籃分析,使用它來發現顧客的購買習慣
兩個不相交的非空集合x、y,如果有x->y,就說x->y是一條關聯規則。關聯規則的強度用支援度(support)和自信度(confidence)來描述,關聯規則是否可用,使用提公升度(lift)來描述。
挖掘定義
給定乙個資料集,找出其中所有支援度support>=min_support,自信度confidence>=min_confifence的關聯規則。
支援度(support)
support(x->y)=集合x與集合y中的項在一條記錄中同時出現的次數/資料的個數
例如:
support()=啤酒和尿布同時出現的次數/記錄數
自信度(cconfidence)
confidence(x->y)=集合x與集合y中的項在一條記錄中同時出現的次數/集合x出現的個數
例如:
confidence(->)=啤酒和尿布同時出現的次數/啤酒出現的次數
提公升度(lift)
度量規則是否可用的指標,描述的是相對於不用規則,使用規則可以提高多少,有用的規則的提公升度大於1
計算公式=lift()=confidence()/support(b)
實現關聯規則的api
install.packages(「arules」)
apriori(x,parameter=list(support=0.5,confidence=0.5))
以經典的啤酒尿布為例,看看在r中如何實現關聯規則演算法
data <- read.transactions(
"data.csv",
format = "single",
cols = c(1,2),
sep=',',
skip=1
)inspect(data)
data2 <- read.transactions(
"data2.txt",
format="basket",
sep=",",
skip = 1
)inspect(data2)
rules <- apriori(data)
inspect(rules)
rules <- apriori(
data,
parameter=list(
support=0.5,
confidence=0.5
))inspect(rules)
lhs rhs support confidence lift
[1] {} =>
0.60.60
1.0000
[2] {} =>
0.80.80
1.0000
[3] {} =>
0.80.80
1.0000
[4] {} =>
0.80.80
1.0000
[5] =>
0.61.00
1.2500
[6] =>
0.60.75
1.2500
[7] =>
0.60.75
0.9375
[8] =>
0.60.75
0.9375
[9] =>
0.60.75
0.9375
[10] =>
0.60.75
0.9375
[11] =>
0.60.75
0.9375
[12] =>
0.60.75
0.9375
由關聯規則演算法的結果告訴我們,最有價值的商品組合為啤酒-尿布! 統計分析 關聯規則之置信度,支援度,提公升度
別看這幾個公式不起眼,資料分析倒是用的很普遍,所以最好記住啊,記不住也沒關係,我都總結好了 一般使用三個指標來度量乙個關聯規則,根據這三個指標可以篩選出滿足條件的關聯規則。這三個指標是 sup port 支援度 support 支援度 suppor t 支援 度 c on fide nce 置信度 ...
關聯分析中的支援度 置信度和提公升度
自 1.支援度 support 支援度表示項集在總項集裡出現的概率。公式為 support x y p x,y p i p x y p i num xuy num i 其中,i表示總事務集。num 表示求事務集裡特定項集出現的次數。比如,num i 表示總事務集的個數 num x y 表示含有的事務...
關聯分析中的支援度 置信度和提公升度
1.支援度 support 支援度表示項集在總項集裡出現的概率。公式為 support x y p x,y p i p x y p i num xuy num i 其中,i表示總事務集。num 表示求事務集裡特定項集出現的次數。比如,num i 表示總事務集的個數 num x y 表示含有的事務集的...