1.支援度(support)
支援度表示項集在總項集裡出現的概率。公式為:
support(x→y) = p(x,y) / p(i) = p(x∪y) / p(i) = num(xuy) / num(i)
其中,i表示總事務集。num()表示求事務集裡特定項集出現的次數。
比如,num(i)表示總事務集的個數
num(x∪y)表示含有的事務集的個數(個數也叫次數)。
2.置信度 (confidence)
置信度表示在先決條件x發生的情況下,由關聯規則」x→y「推出y的概率。即在含有x的項集中,含有y的可能性,公式為:
confidence(x→y) = p(y|x) = p(x,y) / p(x) = p(xuy) / p(x)
3.提公升度(lift)
提公升度表示含有x的條件下,同時含有y的概率,與y總體發生的概率之比。
lift(x→y) = p(y|x) / p(y)
例1,已知有1000名顧客買年貨,分為甲乙兩組,每組各500人,其中甲組有500人買了茶葉,同時又有450人買了咖啡;乙組有450人買了咖啡,如表(1)所示:
表(1)年貨購買表
試求解 1)」茶葉→咖啡「的支援度 # 既買了茶葉又買了咖啡的人/購物人數總數 = 450 / 1000= 0.45
2) "茶葉→咖啡"的置信度 # 既買了茶葉又買了咖啡的人/購買了茶葉人數總數 = 450/500 = 0.9
3)」茶葉→咖啡「的提公升度 # 在購買了茶葉情況下同時購買了咖啡的概率(其實就是上面的置信度)/購買了咖啡的概率[(450+450)/(500+500) = 0.9 / 0.9 = 1
分析:設x= ,y=,則規則」茶葉→咖啡「表示」即買了茶葉,又買了咖啡「,於是,」茶葉→咖啡「的支援度為
support(x→y) = 450 / (500+500) = 45% # 此處跟原創文章不一樣,原創應該是筆誤,答案應該是 0.45
"茶葉→咖啡"的置信度為
confidence(x→y) = 450 / 500 = 90%
」茶葉→咖啡「的提公升度為
lift(x→y) = confidence(x→y) / p(y) = 90% / ((450+450) / 1000) = 90% / 90% = 1
由於提公升度lift(x→y) =1,表示x與y相互獨立,即是否有x,對於y的出現無影響。也就是說,是否購買咖啡,與有沒有購買茶葉無關聯。即規則」茶葉→咖啡「不成立,或者說關聯性很小,幾乎沒有,雖然它的支援度和置信度都高達90%,但它不是一條有效的關聯規則。
判斷關聯規則是否有效的因素:
滿足最小支援度和最小置信度的規則,叫做「強關聯規則」(這個在我們設定演算法的時候引數就會設定好)。然而,強關聯規則裡,也分有效的強關聯規則和無效的強關聯規則。
如果lift(x→y)>1,則規則「x→y」是有效的強關聯規則。
如果lift(x→y) <=1,則規則「x→y」是無效的強關聯規則。
特別地,如果lift(x→y) =1,則表示x與y相互獨立。
關聯分析中的支援度 置信度和提公升度
自 1.支援度 support 支援度表示項集在總項集裡出現的概率。公式為 support x y p x,y p i p x y p i num xuy num i 其中,i表示總事務集。num 表示求事務集裡特定項集出現的次數。比如,num i 表示總事務集的個數 num x y 表示含有的事務...
統計分析 關聯規則之置信度,支援度,提公升度
別看這幾個公式不起眼,資料分析倒是用的很普遍,所以最好記住啊,記不住也沒關係,我都總結好了 一般使用三個指標來度量乙個關聯規則,根據這三個指標可以篩選出滿足條件的關聯規則。這三個指標是 sup port 支援度 support 支援度 suppor t 支援 度 c on fide nce 置信度 ...
支援度和置信度
找出對於資料集的規則,可以看作是一種關係的 比如 如果物件執行了動作a,那該物件可能願意執行動作b 支援度指資料集中規則應驗的次數,即對於一條 如果物件執行了動作a,那該物件可能願意執行動作b 這樣的規則,在特定資料集中被驗證的詞數.置信度表示規則準確率,對於特定規則,在所有相同 與這個特定規則的前...