名詞:
挖掘資料集:購物籃資料
挖掘目標:關聯規則
關聯規則:啤酒=>尿布(支援度0.02,置信度0.6)
支援度:所有資料中有2%的購物記錄包含了啤酒和尿布
置信度:所有包含啤酒的購物記錄裡有60%包含尿布
最小支援度閾值和最小置信度閾值。
項集:項(商品)組成的集合
k-項集:k個項組成的集合
頻繁項集:滿足最小支援度的項集
強關聯規則:滿足最小支援閾值和最小置信度閾值的規則
步驟:
找出所有頻繁項集;由頻繁項集產生強關聯規則。
案例:
tid為購物記錄,list of item_id為商品id,如第t100條購物記錄中,包含商品i1,i2,i5。
最後推出的關聯規則有:
(以上**薛毅老師的《r modeling》)
r語言操作:
包:arules
資料集:groceries(內建資料集)
函式:inspect:顯檢查,示乙個的文集或乙個術語文件矩陣的詳細資訊。檢視資料。
apriori:提取關聯規則
結果如下:
結果展示的即為每一種消費記錄推出同時購買某種商品的支援度和置信度。最右邊的lift引數表明該規則的可信度,如果等於1,嘖表明前面的商品與關聯商品是獨立的。lift值越大,表明規則越可信。
R語言資料探勘值關聯規則挖掘
關聯規則挖掘步驟及 如下 設定工作目錄 setwd e project rexample enterpresponser apriori 載入兩個包 library matrix library arules 讀取資料 幫助文件 tr read.transactions my transaction...
R語言資料探勘2 1 2 1 關聯規則
2.1.2.1 關聯規則 關聯分析可以從海量資料集中發現有意義的關係,這種關係可以表示成關聯規則的形式或頻繁項集的形式。具體的關聯分析演算法將在後面乙個章節中給出。關聯規則挖掘旨在發現給定資料集 事務資料集或其他序列 模式 型別資料集 中的結果規則集合。給定預先定義的最小支援度計數s和置信度c,給定...
R語言使用Apriori規則完成關聯挖掘
說明 關聯挖掘常被用於發現隱藏在事務資料集間的一些有意義的關聯,演算法首先找到所有頻繁項集,然後從這些頻繁項集中生成強規則。apriori是最為著名的關聯規則挖掘技術。該演算法先找到頻繁個體項集,然後再通過廣度優先搜尋策略生成更大的頻繁項集,直至演算法最後再也找不到新的頻繁集而結束。操作載入groc...