關聯分析中的支援度 置信度和提公升度

2022-07-20 18:57:13 字數 1594 閱讀 6406

1.支援度(support)

支援度表示項集在總項集裡出現的概率。公式為:

support(x→y) = p(x,y) / p(i) = p(x∪y) / p(i) = num(xuy) / num(i)

其中,i表示總事務集。num()表示求事務集裡特定項集出現的次數。  

比如,num(i)表示總事務集的個數

num(x∪y)表示含有的事務集的個數(個數也叫次數)。    

2.置信度 (confidence)

置信度表示在先決條件x發生的情況下,由關聯規則」x→y「推出y的概率。即在含有x的項集中,含有y的可能性,公式為:

confidence(x→y) = p(y|x)  = p(x,y) / p(x) = p(xuy) / p(x) 

3.提公升度(lift)

提公升度表示含有x的條件下,同時含有y的概率,與y總體發生的概率之比。

lift(x→y) = p(y|x) / p(y)

例1,已知有1000名顧客買年貨,分為甲乙兩組,每組各500人,其中甲組有500人買了茶葉,同時又有450人買了咖啡;乙組有450人買了咖啡,如表(1)所示:

表(1)年貨購買表

試求解 1)」茶葉→咖啡「的支援度          #  既買了茶葉又買了咖啡的人/購物人數總數  = 450 / 1000= 0.45 

2) "茶葉→咖啡"的置信度          #  既買了茶葉又買了咖啡的人/購買了茶葉人數總數  = 450/500 = 0.9

3)」茶葉→咖啡「的提公升度         #  在購買了茶葉情況下同時購買了咖啡的概率(其實就是上面的置信度)/購買了咖啡的概率[(450+450)/(500+500)  =  0.9 / 0.9 = 1

分析:設x= ,y=,則規則」茶葉→咖啡「表示」即買了茶葉,又買了咖啡「,於是,」茶葉→咖啡「的支援度為

support(x→y) = 450 / (500+500) = 45%     # 此處跟原創文章不一樣,原創應該是筆誤,答案應該是 0.45 

"茶葉→咖啡"的置信度為

confidence(x→y) = 450 / 500 = 90%

」茶葉→咖啡「的提公升度為

lift(x→y) = confidence(x→y) / p(y) = 90% /  ((450+450) / 1000) = 90% / 90% = 1

由於提公升度lift(x→y) =1,表示x與y相互獨立,即是否有x,對於y的出現無影響。也就是說,是否購買咖啡,與有沒有購買茶葉無關聯。即規則」茶葉→咖啡「不成立,或者說關聯性很小,幾乎沒有,雖然它的支援度和置信度都高達90%,但它不是一條有效的關聯規則。

判斷關聯規則是否有效的因素:

滿足最小支援度和最小置信度的規則,叫做「強關聯規則」(這個在我們設定演算法的時候引數就會設定好)。然而,強關聯規則裡,也分有效的強關聯規則和無效的強關聯規則。

如果lift(x→y)>1,則規則「x→y」是有效的強關聯規則。

如果lift(x→y) <=1,則規則「x→y」是無效的強關聯規則。

特別地,如果lift(x→y) =1,則表示x與y相互獨立。

關聯分析中的支援度 置信度和提公升度

自 1.支援度 support 支援度表示項集在總項集裡出現的概率。公式為 support x y p x,y p i p x y p i num xuy num i 其中,i表示總事務集。num 表示求事務集裡特定項集出現的次數。比如,num i 表示總事務集的個數 num x y 表示含有的事務...

統計分析 關聯規則之置信度,支援度,提公升度

別看這幾個公式不起眼,資料分析倒是用的很普遍,所以最好記住啊,記不住也沒關係,我都總結好了 一般使用三個指標來度量乙個關聯規則,根據這三個指標可以篩選出滿足條件的關聯規則。這三個指標是 sup port 支援度 support 支援度 suppor t 支援 度 c on fide nce 置信度 ...

支援度和置信度

找出對於資料集的規則,可以看作是一種關係的 比如 如果物件執行了動作a,那該物件可能願意執行動作b 支援度指資料集中規則應驗的次數,即對於一條 如果物件執行了動作a,那該物件可能願意執行動作b 這樣的規則,在特定資料集中被驗證的詞數.置信度表示規則準確率,對於特定規則,在所有相同 與這個特定規則的前...