資料探勘系列之三 頻繁模式 關聯和相關

2021-06-10 16:29:27 字數 2409 閱讀 1199

項集的出現頻率:包含項集的事務數。也稱作頻率、支援度計數、計數。記作support_count。

某項集i的支援度:包含i的事務數/總事務數;

置信度:用於產生強關聯規則,參見第2節。對於i的某個子集i',support_count(i)/support_count(i')即為置信度的定義。

只要得到a,b和a交b的支援度計數,就可以匯出對應的關聯規則a=>b和b=>a,並檢查它們是否是強規則。如此,挖掘關聯規則的問題就可以歸結為挖掘頻繁項集。

一般地,關聯規則的挖掘可以看做兩步的過程:

1)找出所有的頻繁項集:滿足最小支援度min_sup;

2)由頻繁項集產生強關聯規則:同時滿足min_sup和最小置信度min_conf;

通常,上述a交b寫作a並b,可作如下兩種理解:

1)若寫作a並b,則其並非概率論中的隨機事件,a並b僅看做a中項集和b中項集的並集,p(a並b)即包含a中項集同時包含b中項集的事務數(所佔比例)。

2)若寫作a交b,則可與概率中隨機事件相似理解,a為事件:全集中含有a中項集的事務,b:全集中含有b中項集的事務,則a交b:全集中含有a且含有b的事務。

閉頻繁項集:若不存在項集x的真超項集y使得y與x在資料集s中有相同的支援度計數,則稱x在s中是閉的。若x在s中是閉的和頻繁的,則項集x是資料集s中的閉頻繁項集。

極大頻繁項集(極大項集):若x是頻繁的,且不存在超項集y也是頻繁的。

注意:閉的未必是頻繁的,但極大項集必定是頻繁的。閉頻繁項集也不等同於極大項集:區別的關鍵就是閉頻繁項集要求不存在相同的支援度計數的超集,而極大項集要求不存在頻繁的超集。頻繁的超集中支援度計數可能不同,因為頻繁與否由最小支援度決定,它決定了乙個計數範圍,而不是指定了乙個唯一的計數值。

頻繁項集的完全集:

閉頻繁項集:

極大頻繁項集:

被約束的頻繁項集:即滿足使用者指定的一組約束的頻繁項集

近似的頻繁項集:即只推導被挖掘的頻繁項集的祭祀支援度計數

接近匹配的頻繁項集:即與接近或幾乎匹配的項集的支援度計數相符合的項集

最頻繁的k個項集:即對於使用者指定的k,k個最頻繁的項集

多層關聯規則(multilevel association rule)

單層關聯規則(single-level association rule):在給定的規則集中,規則不涉及不同抽象層的項或屬性

單維關聯規則(single-dimensional association rule):關聯規則中的項或屬性只涉及乙個維。按照多維資料庫的術語,規則中的每個不同謂詞稱作維。如僅涉及維buys,buys(x, 「電腦」)=>buys(x, 「印表機」)。

多維關聯規則:規則涉及兩個或多個維,如涉及age,income和buys,age(x, "30到39")∧income(x, "42k到48k")=>buys(x, "電視")。

布林關聯規則(boolean association rule):規則考慮的關聯為項是否出現

量化關聯規則(quantitative association rule):規則描述量化的項或屬性之間的關聯。在這種規則中,項或屬性的量化值劃分為區間。

頻繁模式分析可以產生各種型別的規則和其他有趣的聯絡。

關聯規則:

強梯度聯絡(strong gradient relationship):梯度是項集與它的父母(泛化的項集)、子女(特殊化的項集)或兄妹(可比較的項集)相比之下的度量比率。

頻繁項集挖掘:從事務或關係資料集挖掘頻繁項集(項的集合)

序列模式挖掘:從序列資料集中搜尋頻繁子串行,其中序列記錄了事件的次序。

結構模式挖掘:在結構化資料集中搜尋頻繁子結構。結構模式挖掘可看作頻繁模式挖掘的一般形式。

最簡單形式的頻繁模式:單維(乙個謂詞)、單層(涉及唯一抽象層)、布林(所處理的值型別)頻繁項集(所挖掘的模式型別)。

主要步驟

-連線步:可連線的是指僅最後乙個元素不同

-剪枝步:採用apriori性質和雜湊樹

apriori性質:項集x是頻繁的<=>x的所有非空子集是頻繁的<=>x的所有1項集是頻繁的。

apriori性質屬於反單調性(若乙個集合不能通過測試,則它的所有超集也都不能通過相同的測試)

-資料集全掃瞄計數

偽**

**實現

例子

此處討論由頻繁項集產生強關聯規則的最簡單形式(單維、單層、布林)。

步驟

1)對於每個頻繁項集l,產生l所有非空子集。

2)對於l的每個非空子集s,若support_count(l)/support_count(s) >= min_conf,則輸出規則「s => (l-s)」。

資料探勘 挖掘頻繁模式 關聯和相關 1

學習是一件很苦的事情,但是有時卻是一件很神奇的事情,神奇到原本很抽象枯燥的知識點你卻可以取其精華的理解,這時效率最高 此時務必將心得寫下 以下讀書筆記來自我在閱讀 資料探勘 概念與技術 的一點感受 所謂挖掘頻繁模式,關聯和相關,即指在出現的資料集中找到乙個經常出現的序列模式或者是乙個經常出現的資料結...

資料探勘學習筆記 頻繁模式和關聯規則

關聯規則挖掘是從交易資料庫 關聯式資料庫以及其他的資料集中發現項或物件的頻繁模式 frequent patterns 關聯 associations 的過程。支援度 support 支援度指交易包含項集x的概率 百分數 support x count x d 100 其中d的模表示交易的個數 若su...

挖掘頻繁模式 關聯和相關性 基本概念和方法

頻繁模式 頻繁模式是頻繁地出現在資料集中的模式 如項集 子串行或子結構 例如 頻繁地同時出現在交易資料集中的商品 如香皂和洗衣液 的集合是頻繁項集。序號交易號 香皂 a 洗髮露 b 洗衣液 c 牙膏 d 簡化表示 1081201 香皂洗髮露 洗衣夜a,b,c 2081202 香皂洗衣夜 牙膏a,c,...