關聯規則挖掘

2021-09-29 08:08:38 字數 2151 閱讀 8096

直接用例項來解釋概念更清楚一些,加入資料庫中存在10條交易記錄(transaction),具體如下表所示:

交易id(tid)

購買商品(items)b:bread c:cream m:milk t:tea

t01b c m t

t02b c m

t03c m

t04m t

t05b c m

t06b t

t07b m t

t08t09

b c m t

t10b m t

幾個概念:

專案(item):其中的b c m t 都稱作item。

項集(itemset):item的集合,例如、等,每個顧客購買的都是乙個itemset。其中,itemset中item的個數成為itemset的長度,含有k個item的itemset成為k-itemset.

交易(transaction):定義i為所有商品的集合,在這個例子中i=。每個非空的i子集都成為乙個交易。所有交易構成交易資料庫d。

項集支援度(support):回個一下項集概念,項集x的支援度定義為:項集x在交易庫**現的次數(頻數)與所有交易次數的比。例如t02的項集x=,則support(x)=2/10=0.2。項集支援度也就是項集出現的頻率。

頻繁集(frequent itemset):如果乙個項集的支援度達到一定程度(人為規定),就稱該項集為頻繁項集,簡稱頻繁集。這個人為規定的界限就被叫做項集最小支援度(記為supmin)。更通俗地說,如果某個項集(商品組合)在交易庫**現的頻率達到一定值,就稱作頻繁集。如果k項集支援度大於最小支援度,則稱作k-頻繁集,記為lk。

關聯規則(association rule):r:x→y

其中,x、y都是i的子集,且x、y交集為空。這一規則表示如果項集x在某一交易**現,則會導致項集y以某一概率同時出現在這一交易中。例如r1:→ 表示如果麵包b出現在乙個購物籃中,則牛奶m以某一概率同時出現在該購物籃中。x稱為條件(antecedent or left-hand-side lhs),y稱為結果(consequence or right hand side rhs)。衡量某一關聯規則有兩個指標:關聯規則的支援度(support)和可信度(confidence)。

關聯規則的支援度:交易庫中同時出現x、y的交易數與總交易數之比,記為support(x→y)。其實也就是兩個項集出現在交易庫中的頻率。

關聯規則的可信度:包含x、y的交易數與包含x的交易數之比,記為confidence(x→y)。也就是條件概率:當項集x出現時,項集y同時出現的概率,p(y|x)。

conviction:conv(x→y)=【 1-sup(y)】/【1-conf(x→y)】表示x出現而y不出現的概率。也就是規則**錯誤的概率。

綜合一下,關聯規則r就是:如果項集x出現在某一購物籃,則項集x同時出現在這一購物籃的概率為confidence (x→y)。

如果我們定義乙個關聯規則最小支援度和關聯規則最小可信度,當某一規則兩個指標都大於最低要求時,則成為強關聯規則。反之成為弱關聯規則。

例如,在上表中,對於規則r:b → m,假設這一關聯規則的支援度為6/10=0.6,表示同時包含c和m的交易數占總交易的60%.可信度為6/8=0.75,表示購買麵包b的人,有75%可能性同時購買牛奶。也就是當抽樣樣本足夠大時,每100個人當中,有75個人同時買了麵包和牛奶,兩外25個人只買其中一樣。

rakesh agrawal

關聯規則的發現一般分為兩個步驟:

1) 根據給定的最小項集支援度,找出所有滿足條件的項集,即頻繁項集。

2) 根據最小可信度,在所有頻繁集中找出符合條件的關聯規則。

步驟1中,可能的項集組合(itemset)有2n-1(排除空集),找出所有頻繁集不是乙個簡單的任務。注意的是,如果某個項集x是頻繁集,則x的子集也必定為頻繁集。

關聯規則分類:

資料的維度:單維和多維,例如麵包–>牛奶為單維關聯規則。而 性別=「女」—>職業=「教師」為多維。

資料的抽象層次:單層關聯規則和多層關聯規則。 單層的還是麵包牛奶的例子,多層的比如:麵包—>伊利牌牛奶。

變數的型別:布林型關聯規則和數值型。布林型: 性別=「女」—>職業=「教師。 數值型:工齡=「5」----->平均工資=「3000」

頻繁項集常用挖掘演算法:apriori演算法、fp-growth演算法、eclat演算法

在ibm spss modeler中,用簡單的資料集測試apriori演算法。詳細請參考:

關聯規則挖掘

關聯規則反映事物之間的相互依存性和關聯性。如果事物之間存在一定的關聯,那麼我們就可以通過乙個事物去 另乙個事物。我們要挖掘大量資料中人們感興趣的,有價值的資訊,包括概念,規則,規律等。關聯規則 發現資料中的規律 超市中什麼產品會 起購買?組合推薦 顧客在買了 臺pc之後下 步會購買?搭配推薦 哪種d...

關聯規則挖掘

1.基本概念 關聯規則挖掘是指尋找給定資料集中項之間的有趣關聯或相關聯絡。可以幫助許多決策的制定,如分類設計 交叉購物和賤賣分析。典型的例子就是購物籃分析。2.關聯規則的步驟 1 找出所有的頻繁項集 這些項集出現的頻繁性至少和預定義的最小支援數一樣 2 由頻繁項集產生強關聯規則 這些規則必須滿足最小...

關聯規則挖掘

概念 支援度 某個商品組合出現的次數與總次數之間的比例 置信度 置信度是個條件概念,就是說在 a 發生的情況下,b 發生的概率是多少 提公升度 衡量 a 出現的情況下,是否會對 b 出現的概率有所提公升 提公升度 a b 置信度 a b 支援度 b 缺點 cba 演算法 gsp 演算法 aprior...