1、關聯分析定義:從資料集中找出物件或項集之間同時發生的關聯或順序關係。
應用: 購物籃資料分析
關聯銷售
目錄編排
**分析
web日誌分析
dna序列分析(癌症資料分析中,搜尋dna和蛋白質序列的有趣且頻繁出現的模式) 移動通訊**業務分析
關聯規則挖掘是用於知識發現,而非**,所以是屬於無監督的機器學習方法。
事務標識:t= 例:tid=
項集:i= 例:i=
k-項集:是乙個2-項集,是乙個4-項集
事務:若干項組成的集合 例:即乙個事務
1、關聯規則(association rule):一般記為 x→y 的形式,用於表示資料內隱含的關聯性
2、關聯規則的強度由 「三度」 控制:支援度、置信度、提公升度
3、支援度、頻繁項集
①支援度(support ):指所有項集中同時出現的項集所佔的百分比 即項集中同時含有x和y 的概率;
②最小支援度(minsupport):即使用者規定的關聯規則必須滿足的最小的支援度閾值。
③頻繁項集(frequent itemset):支援度大於或等於minsupport的非空項集
4、置信度
①置信度(confidence):關聯規則x→y的置信度(confidence) 是指包含x和y的項集數與包含x的項集數之比 即confidence(x→y ) = support(x,y)/ support(x) 易知, confidence(x→y ) =p(y |x)
②最小置信度(minconfidence): 即使用者規定的關聯規則必須滿足的最小的置信度閾值 它反應了關聯規則的最低可靠度
5、強關聯規則(strong association rule): 同時滿足最小支援度(minsupport)和最小置信度(minconfidence)的關聯規則稱為強關聯規則。
6、支援度和可信度計算舉例
規則 x → y 的支援度和可信度
支援度 s:一次交易中同時包含的可能性
置信度 c :包含項x 的交易中同時也包含y的條件概率
設最小支援度為0.5, 最小可信度為 0.5, 則可得到關聯規則
a → c (0.5, 0.67)
第乙個0.5表示支援度,2(a,c同時出現次數)/4(共4條記錄)
第二個0.67表示置信度,2(a,c同時出現次數)/3(a出現的次數)
c → a (0.5, 1)
第乙個0.5表示支援度,2(a,c同時出現次數)/4(共4條記錄)
第二個1表示置信度,2(a,c同時出現次數)/2(c出現的次數)
7、規則置信度、規則支援度、前項支援度、後項支援度y合計
10x1
abr10
cdr2合計
c1c2t
規則置信度:a/r1 規則支援度:a/t
前項支援度:r1/t 後項支援度:c1/t例:吃
不吃合計
優異60
40100
不優異66
1480
合計126
54180
規則置信度:60/100=60% 規則支援度:60/180=33.33%
前項支援度:100/180 後項支援度:126/180=70%
8、提公升度(lift)
提公升度(lift)= 規則置信度 / 後項支援度
即 lift(x→y) = confidence(x→y) / p(y) = p(y|x) / p(y)
這個公式是用來衡量 a 出現的情況下,是否會對 b 出現的概率有所提公升。所以提公升度有三種可能:
提公升度 (a→b)>1:代表有提公升;
提公升度 (a→b)=1:代表有沒有提公升,也沒有下降;
提公升度 (a→b)<1:代表有下降。
9、關聯規則挖掘問題
①挖掘關聯規則問題就是尋找支援度和置信度分別大於使用者給定的最小閾值的關聯規則。
②挖掘關聯規則問題可以劃分成兩個子問題: 發現頻繁專案集:通過使用者給定minsupport ,尋找所有頻繁專案集或者最大頻繁專案集。 生成關聯規則:通過使用者給定minconfidence ,在頻繁專案集中,尋找關聯規則。 第1個子問題是近年來關聯規則挖掘演算法研究的重點。
10、關聯規則挖掘的基本模型
主要了解支援度(s)、置信度(c)、提公升度(l)如何計算
資料探勘之關聯規則分析
關聯規則分析也稱為購物籃分析,最早是為了發現超市銷售資料庫中不同的商品之間的關聯關係。用於尋找資料集中各項之間的關聯關係。根據所挖掘的關聯關係,可以從乙個屬性的資訊來推斷另乙個屬性的資訊。當置信度達到某一閾值時,可以認為規則成立。常用的關聯規則演算法 演算法名稱 演算法描述 apriori 關聯規則...
資料探勘 關聯規則挖掘
關聯規則 association rule 是資料中所蘊含的一類重要規律。關聯規則挖掘的目標是在資料專案中找出所有的併發關係 cooccurrence relationships 這種關係也稱為關聯 association 關聯規則挖掘的經典應用是購物籃 market basket 關聯規則挖掘並沒...
資料探勘之關聯規則
在資料探勘的知識模式中,關聯規則模式是比較重要的一種。屬於描述性模式,發現關聯規則的演算法屬於無監督學習的方法。關聯規則通過量化的數字描述物品甲的出現對物品乙的出現有多大的影響。一般用4個引數來描述關聯規則的屬性 1.可信度 子集 可信度是指出現了物品集a的事務t中,物品集b也同時出現的概率有多大。...