在資料探勘的知識模式中,關聯規則模式是比較重要的一種。屬於描述性模式,發現關聯規則的演算法屬於無監督學習的方法。
關聯規則通過量化的數字描述物品甲的出現對物品乙的出現有多大的影響。
一般用4個引數來描述關聯規則的屬性:
1.可信度(子集)
可信度是指出現了物品集a的事務t中,物品集b也同時出現的概率有多大。比如:如果乙個顧客購買了鐵鎚,那麼他也購買鐵釘的可能性有多大呢?可信度:購買鐵鎚的顧客中有70%的人購買了鐵釘,所以可信度是70%。
2.支援度(交集)
設w中s%的事務同時支援物品集a和b,s%就是關聯規則a->b的支援度。描述了a和b這兩個物品集的並集c在所有的事務中出現的概率有多大。例子:若一天中1000個顧客到商場購買物品,其中100個顧客同時購買了鐵鎚和鐵釘,那麼上述的關聯規則的支援度就是10%。
3.期望可信度(expected confidence)
期望可信度描述了在沒有任何條件影響時,物品集b在所有事務中出現的概率有多大。例子:若某天共1000個顧客到商場購買物品,其中200人購買了鐵釘,則上述關聯規則的期望可信度就是20%。
4.作用度(lift)
作用度時可信度和期望可信度的比值。描述物品集a的出現對物品集b的出現有多大的影響。反映了在加入「物品集a出現」的這個條件後,物品集b的出現概率發生了多大的變化。例子中,70%/20%=3.5
可信度是對關聯規則準確度的衡量,支援度是對關聯規則重要性的衡量。支援度說明了這條規則在所有事務中有多大的代表性,顯然支援度越大,關聯規則越重要。
作用度描述了物品集a對物品集b的影響力的大小。作用度越大說明物品集b受物品集a的影響越大。一般情況下,游泳的關聯規則的作用度都應該大於1,只有關聯規則的可信度大於期望可信度,才能說明a的出現對於b的出現有促進作用,也說明了他們之間某種程度的相關性,如果作用度不大於1,則此關聯規則也就沒有意義了。
事實上,人們一般只對滿足一定支援度和可信度的關聯規則感興趣。因此,為了發現有意義的關聯規則,需要給定兩個閾值:最小支援度和最小可信度。前者規定了關聯規則必須滿足的最小支援度,後者規定了關聯規則必須慢則的最小可信度。一般稱滿足一定要求的規則為強規則。
關聯規則的挖掘中要注意以下幾點:
1.充分理解資料。
2.明確目標。
3.資料準備工作要好,能否做好資料準備又取決於前兩點。資料準備直接影響到問題的複雜度和目標的實現。
4.選取恰當的最小支援度和最小可信度。
5.很好的理解關聯規則。資料探勘工具能夠發現滿足條件的關聯規則,但是它不能判定關聯規則的實際意義。對關聯規則的理解需要熟悉業務背景,豐富的業務經驗對資料有足夠的理解。在發現的關聯規則中,可能有兩個主觀上認為沒有多大關係的物品,他們的關聯規則支援度和可信度卻很高,需要根據業務知識、經驗,從各個角度判斷這是乙個偶然現象或者有其內在的合理性;反之,可能有主觀上認為關係密切的物品,結果卻顯示它們之間相關性不強。只有很好的理解關聯規則,才能去其糟粕,取其精華,充分發揮關聯規則的價值。
發現關聯規則的三個步驟:
1.連線資料,做資料準備;
2.給定最小支援度和最小可信度,利用資料探勘工具提供的演算法發現關聯規則;
3.視覺化顯示,理解,評估關聯規則;(如何評估)
應用現狀:目前金融行業實施的大多數資料庫只能實現資料的錄入、查詢、統計等較低層次的功能,卻無法發現資料中存在的各種有用資訊,譬如對這些資料進行分析,發現其資料模式和特徵,然後可能發現某個客戶、消費群體或者組織的金融和商業興趣,並可觀察金融市場的變化趨勢。
現有內容是什麼?如何做到的?有什麼意義?
還有哪些可以增加的分析需求?可行性?難度?為什麼沒有做?
資料探勘 關聯規則挖掘
關聯規則 association rule 是資料中所蘊含的一類重要規律。關聯規則挖掘的目標是在資料專案中找出所有的併發關係 cooccurrence relationships 這種關係也稱為關聯 association 關聯規則挖掘的經典應用是購物籃 market basket 關聯規則挖掘並沒...
資料探勘之關聯規則分析
關聯規則分析也稱為購物籃分析,最早是為了發現超市銷售資料庫中不同的商品之間的關聯關係。用於尋找資料集中各項之間的關聯關係。根據所挖掘的關聯關係,可以從乙個屬性的資訊來推斷另乙個屬性的資訊。當置信度達到某一閾值時,可以認為規則成立。常用的關聯規則演算法 演算法名稱 演算法描述 apriori 關聯規則...
資料探勘之關聯規則挖掘(Apriori演算法)
一 概述 本篇博文主要闡述資料探勘相關的關聯規則挖掘的演算法 apriori演算法 主要介紹關聯規則的基本概念 apriori演算法原理和apriori演算法例項,文章末尾處附加apriori演算法源程式。二 關聯規則挖掘的基本概念 關聯規則挖掘發現大量資料中項集之間有趣的關聯關係。如果兩項或者多項...