R關聯規則演算法(支援度 自信度 提公升度)

2021-08-04 06:07:49 字數 1963 閱讀 7924

用於大量資料中挖掘出有價值的資料項之間的相關關係

常用於使用者購物籃分析,使用它來發現顧客的購買習慣

兩個不相交的非空集合x、y,如果有x->y,就說x->y是一條關聯規則。關聯規則的強度用支援度(support)和自信度(confidence)來描述,關聯規則是否可用,使用提公升度(lift)來描述。

挖掘定義

給定乙個資料集,找出其中所有支援度support>=min_support,自信度confidence>=min_confifence的關聯規則。

支援度(support)

support(x->y)=集合x與集合y中的項在一條記錄中同時出現的次數/資料的個數

例如:

support()=啤酒和尿布同時出現的次數/記錄數

自信度(cconfidence)

confidence(x->y)=集合x與集合y中的項在一條記錄中同時出現的次數/集合x出現的個數

例如:

confidence(->)=啤酒和尿布同時出現的次數/啤酒出現的次數

提公升度(lift)

度量規則是否可用的指標,描述的是相對於不用規則,使用規則可以提高多少,有用的規則的提公升度大於1

計算公式=lift()=confidence()/support(b)

實現關聯規則的api

install.packages(「arules」)

apriori(x,parameter=list(support=0.5,confidence=0.5))

以經典的啤酒尿布為例,看看在r中如何實現關聯規則演算法

data <- read.transactions(

"data.csv",

format = "single",

cols = c(1,2),

sep=',',

skip=1

)inspect(data)

data2 <- read.transactions(

"data2.txt",

format="basket",

sep=",",

skip = 1

)inspect(data2)

rules <- apriori(data)

inspect(rules)

rules <- apriori(

data,

parameter=list(

support=0.5,

confidence=0.5

))inspect(rules)

lhs rhs support confidence lift

[1] {} =>

0.60.60

1.0000

[2] {} =>

0.80.80

1.0000

[3] {} =>

0.80.80

1.0000

[4] {} =>

0.80.80

1.0000

[5] =>

0.61.00

1.2500

[6] =>

0.60.75

1.2500

[7] =>

0.60.75

0.9375

[8] =>

0.60.75

0.9375

[9] =>

0.60.75

0.9375

[10] =>

0.60.75

0.9375

[11] =>

0.60.75

0.9375

[12] =>

0.60.75

0.9375

由關聯規則演算法的結果告訴我們,最有價值的商品組合為啤酒-尿布!

統計分析 關聯規則之置信度,支援度,提公升度

別看這幾個公式不起眼,資料分析倒是用的很普遍,所以最好記住啊,記不住也沒關係,我都總結好了 一般使用三個指標來度量乙個關聯規則,根據這三個指標可以篩選出滿足條件的關聯規則。這三個指標是 sup port 支援度 support 支援度 suppor t 支援 度 c on fide nce 置信度 ...

關聯分析中的支援度 置信度和提公升度

自 1.支援度 support 支援度表示項集在總項集裡出現的概率。公式為 support x y p x,y p i p x y p i num xuy num i 其中,i表示總事務集。num 表示求事務集裡特定項集出現的次數。比如,num i 表示總事務集的個數 num x y 表示含有的事務...

關聯分析中的支援度 置信度和提公升度

1.支援度 support 支援度表示項集在總項集裡出現的概率。公式為 support x y p x,y p i p x y p i num xuy num i 其中,i表示總事務集。num 表示求事務集裡特定項集出現的次數。比如,num i 表示總事務集的個數 num x y 表示含有的事務集的...