頻繁模式挖掘搜尋給定資料集中反覆出現的聯絡。
典型例子:購物籃分析 該過程通過發現顧客放入他們購物籃中的商品之中的關聯,分析顧客的購物習慣。
關聯規則(association rule) : a => b[support = ?% ; confidence = ?%]
規則的支援度和置信度是規則興趣度的兩種度量。
規則 a=>b 具有支援度 s = support(a=>b) = p(a u b)頻繁項集 : 當項集k 的相對支援度 support(a=>b) 滿足 預定義的最小支援度閾值,則項集k是頻繁項集。規則 a=>b 具有置信度 c = confidence(a=>b) = p (b | a)
閉項集:當項集k 不存在超項集 y 使其具有相同的支援度。則項集k在資料集d中是閉頻繁項集。
極大頻繁項集(極大項集) : 項集k頻繁的,且不存在超項集 y 在資料集d中是頻繁的,則k是極大頻繁項集
apriori演算法 : 通過限制候選產生發現頻繁項集。
原理: 逐層搜尋的迭代方法 利用k項集 去 探索 k+1 項集。沒找出乙個頻繁項集 li 需要一次資料庫的完整掃瞄
先驗規則:頻繁項集的所有沒空子集一定是頻繁的。舉例 由l1 找到 l2
步驟(1) 連線步:
通過l1與自身連線 產生候選k項集的集合。該集合為ck。 設l1、l2 是l1中的項集,記號 li[j]表示 li的第j項。
為了有效地實現apriori演算法假定事務或項集中的項按字典序排序。
步驟(2) 剪枝步:
挖掘頻繁模式 關聯和相關性 基本概念和方法
頻繁模式 頻繁模式是頻繁地出現在資料集中的模式 如項集 子串行或子結構 例如 頻繁地同時出現在交易資料集中的商品 如香皂和洗衣液 的集合是頻繁項集。序號交易號 香皂 a 洗髮露 b 洗衣液 c 牙膏 d 簡化表示 1081201 香皂洗髮露 洗衣夜a,b,c 2081202 香皂洗衣夜 牙膏a,c,...
資料探勘 挖掘頻繁模式 關聯和相關 1
學習是一件很苦的事情,但是有時卻是一件很神奇的事情,神奇到原本很抽象枯燥的知識點你卻可以取其精華的理解,這時效率最高 此時務必將心得寫下 以下讀書筆記來自我在閱讀 資料探勘 概念與技術 的一點感受 所謂挖掘頻繁模式,關聯和相關,即指在出現的資料集中找到乙個經常出現的序列模式或者是乙個經常出現的資料結...
資料探勘系列之三 頻繁模式 關聯和相關
項集的出現頻率 包含項集的事務數。也稱作頻率 支援度計數 計數。記作support count。某項集i的支援度 包含i的事務數 總事務數 置信度 用於產生強關聯規則,參見第2節。對於i的某個子集i support count i support count i 即為置信度的定義。只要得到a,b和a...