2.1.2.1 關聯規則
關聯分析可以從海量資料集中發現有意義的關係,這種關係可以表示成關聯規則的形式或頻繁項集的形式。具體的關聯分析演算法將在後面乙個章節中給出。
關聯規則挖掘旨在發現給定資料集(事務資料集或其他序列-模式-型別資料集)中的結果規則集合。給定預先定義的最小支援度計數s和置信度c,給定已發現的規則x→y support_count (x→y)≥s且confidence (x→y)≥c。
當x∩y=(x、y不相交),則x→y是關聯規則。規則的興趣度通過支援度(support)和置信度(confidence)來測量。支援度表示資料集中規則出現的頻率,而置信度測量在x出現的前提下,y出現的可能性。
對於關聯規則,衡量規則可用性的核心度量是規則的支援度和置信度。兩者之間的關係是:
support_count(x)是資料集中包含x的項集數。
通常,在support_count(x)中,支援度和置信度的值表示為0~100的百分數。
給定最小支援度閾值s和最小置信度閾值c。如果support_count (x→y) > s且confidence (x→y)≥c,則關聯規則x→y稱為強規則。
對於關聯規則含義的解釋應當慎重,尤其是當不能確定地判斷規則是否意味著因果關係時。它只說明規則的前件和後件同時發生。以下是可能遇到不同種類的規則:
布林關聯規則:若規則包含項出現的關聯關係,則稱為布林關聯規則。
單維關聯規則:若規則最多包含乙個維度,則為單維關聯規則。
多維關聯規則:若規則至少涉及兩個維度,則為多維關聯規則。
定量關聯規則:若規則中至少乙個項或屬性是定量的,則稱為定量關聯規則。
R語言資料探勘值關聯規則挖掘
關聯規則挖掘步驟及 如下 設定工作目錄 setwd e project rexample enterpresponser apriori 載入兩個包 library matrix library arules 讀取資料 幫助文件 tr read.transactions my transaction...
R語言 資料探勘 R語言如何做關聯規則?
一 前言 提到資料探勘,我們第一反應就是之前聽到的啤酒和尿不濕的故事,該故事就是典型的資料探勘中的關聯規則。購物籃分析區別於傳統的線性回歸的主要區別為,關聯分析針對離散資料 下面我們利用r語言的arules包及apriori演算法對商品交易資料進行關聯規則挖掘,二 常見關聯規則 關聯規則 牛奶 雞蛋...
R語言使用Apriori規則完成關聯挖掘
說明 關聯挖掘常被用於發現隱藏在事務資料集間的一些有意義的關聯,演算法首先找到所有頻繁項集,然後從這些頻繁項集中生成強規則。apriori是最為著名的關聯規則挖掘技術。該演算法先找到頻繁個體項集,然後再通過廣度優先搜尋策略生成更大的頻繁項集,直至演算法最後再也找不到新的頻繁集而結束。操作載入groc...