資料探勘 挖掘頻繁模式 關聯和相關 1

2021-06-05 22:25:51 字數 2110 閱讀 2379

學習是一件很苦的事情,但是有時卻是一件很神奇的事情,神奇到原本很抽象枯燥的知識點你卻可以取其精華的理解,這時效率最高

此時務必將心得寫下

以下讀書筆記來自我在閱讀《資料探勘-概念與技術》的一點感受

所謂挖掘頻繁模式,關聯和相關,即指在出現的資料集中找到乙個經常出現的序列模式或者是乙個經常出現的資料結構。就像搞cpu設計的人知道,cache的預取機制有流預取和指標預取,前者就是發現流模式,即發現在位址上順序出現的序列模式,後者即發現指標鏈結模式,即鏈式資料結構。

比如乙個人逛超市,她的購物籃裡可能裝有各種商品的組合。我們設想所有的商品構成全集,每種商品用0-1表示是否出現,那麼每個購物籃就可以用乙個布林向量表示,如(0,1,...,1,0)可能表示:(沒有買酸奶,買了冰激凌...買了批薩,沒有買牛排),分析大量顧客的購物籃就可以得到乙個用購物模式,這個模式我們用關聯規則表示,如 :

冰激凌=>批薩 [支援度 = 2%, 置信度 = 60%]

這個就表示所有顧客中有2%的人同時購買了冰激凌和批薩,而買了冰激凌的人中有60%的購買了批薩。一般來說,如果某個模式的支援度和置信度都大於各自的乙個閾值,那麼這個模式就是乙個我們感興趣的模式(這個就稱為強關聯規則)。

結合數學語言來說,就是i = 是所有物品的集合,而事務集d表示所有購物籃裡可能的物品組合,事務t是d中的一種可能,也是i中許多物品的乙個組合,這個事務用tid標識。假設a,b都是乙個元素集合,並且事務t包含a,b。定義關聯規則是形如a=>b的蘊含式。

若d中出現aub的百分比為s,則稱a=>b在事務集d中成立的支援度為s。所以support(a=>b) = p(aub) // 注意,這裡的u表示事務集包含a和b的並集,而不是a or b的意思

若出現a的情況下出現b的百分比為c,則稱a=>b在事務集d中具有置信度c。所以confidence(a=>b) = p(b|a)

是乙個2項集。乙個項集的出現頻率是包含項集的事務數,即包含該物品組合的籃子數量,這個稱為該項集的絕對支援度或計數:support_count,若這個值大於某個閾值,那麼這個項集就稱為頻繁項集。

由條件概率公式可以得出:confidence(a=>b) = p(b|a) = support(aub)/support(a) = support_count(aub)/support_count(a)

那麼只要知道有多少籃子裡出現了批薩,以及有多少籃子裡同時出現冰激凌和批薩,就可以求得出現冰激凌的條件下出現批薩的概率。

關聯規則的挖掘就可以歸結為挖掘頻繁項集:

(1)找出所有的頻繁項集。

(2)由頻繁項集產生強關聯規則

也就是說找出所有籃子裡常出現的組合,然後在這些組合中發現規律。

顯然第一步的複雜度遠高於第二步,因而總體效能由第一步決定。

顯然乙個項集是頻繁的,其子集也是頻繁的,因為包含了該項集的事務必然也包含該項集的子集。換句話說只要冰激凌和批薩的組合是頻繁出現的,那麼冰激凌和批薩本身必然也是頻繁出現的。所以往往頻繁項集的資料量是非常大的。為了克服這個困難,引入了閉頻繁項集和極大頻繁項集的概念。

若項集x是閉的,那麼只要x是y的子集,則y的計數一與x的計數不同。

若項集x是極大頻繁的,那麼只要x是頻繁的,並且x是y的子集,那麼y一定不是頻繁的。

這裡,「極大」很好理解,只要再多乙個物品,那麼這個組合就不符合頻繁了。「閉」這個字不好理解,我們可以認為只要多乙個元素,一定就會發生改變,就像臨界點一樣。

比如資料庫裡只有兩個事務,或者說我們只調查了兩個顧客的籃子。第乙個是,第二個是。加入最小閾值為1,也就是說出現次數多於1次的組合就是頻繁的。那麼顯然柴,公尺,油,鹽,醬,醋,茶都是頻繁的,而柴,公尺,油,鹽的計數為2,醬,醋,茶的計數為1。這時如果把在集合中再增加乙個元素,那麼新集合的計數必然變化為2,因而第二個集合是閉頻繁的,同理一也是閉頻繁的,另外若在一中再增加乙個元素,那麼新集合計數就變為0了,因而一還是極大頻繁的。

以上購物籃分析只是頻繁挖掘的一種形式。事實上,形式有很多種,不同型別的形式對應了不同的計算和優化方法。我們主要研究挖掘頻繁項集的完全集,閉頻繁項集,和被約束的頻繁項集(即滿足使用者指定的一組約束的頻繁項集),我們的研究針對最基本的情況(單層、單維、布林)。

單層:表示每個物品只有乙個抽象層(如冰激凌和dq就是兩個抽象層的東西)

單維:表示每個物品只涉及乙個維(如30-40年齡段的人、收入5000到8000的人的購物籃)

布林:即只考慮每個元素是否出現。

關聯規則 頻繁模式挖掘

基本概念 二院表示 每一行對應乙個事務,每一列對應乙個項,項用二元變數表示 項集 包括0個或多個項的集合,包含k個稱為k 項集 事物的寬度 事務中項的個數 頻繁項集 滿足最小支援度閾值的所有項集 強規則 頻繁項集中提取出的高置信度的規則 關聯規則三個指標 support 支援度 表示a和b的事務所佔...

資料探勘系列之三 頻繁模式 關聯和相關

項集的出現頻率 包含項集的事務數。也稱作頻率 支援度計數 計數。記作support count。某項集i的支援度 包含i的事務數 總事務數 置信度 用於產生強關聯規則,參見第2節。對於i的某個子集i support count i support count i 即為置信度的定義。只要得到a,b和a...

資料探勘學習筆記 頻繁模式和關聯規則

關聯規則挖掘是從交易資料庫 關聯式資料庫以及其他的資料集中發現項或物件的頻繁模式 frequent patterns 關聯 associations 的過程。支援度 support 支援度指交易包含項集x的概率 百分數 support x count x d 100 其中d的模表示交易的個數 若su...