說明
在進行關聯規則挖掘前,我們需要首先將資料轉換成事務資料。討論三種常用資料集,包括鍊錶,矩陣,資料框架。然後將它們轉化成事務資料。
操作匯入arulesm建立乙個包括三個向量的鍊錶,以存放購買記錄
c("bread","cake","milk"))
names
(tr_list) = paste
("tr",c(1:3),sep = "")
呼叫as函式,將鍊錶轉化成事務型別:
trans = as(tr_list,"transactions")
trans
transactions in sparse format
with
3 transactions (rows) and
4items (columns)
將矩陣格式的資料轉換成事務型別:
tr_matrix = matrix(
c(1,1,1,0,
1,1,0,1,
0,1,1,1),ncol = 4)
dimnames(tr_matrix) = list(
paste("tr",c(1:3),sep = ""),
)trans2 = as(tr_matrix,"transactions")
trans2
transactions in sparse format
with
3 transactions (rows) and
4items (columns)
最後將資料框型別的資料集轉換成事務:
tr_df = data.frame(
trid = as.factor(c(1,2,1,1,2,3,2,3,2,3)),
)trans3 = as(split(tr_df[,"item"],tr_df[,"trid"]),"transactions")
trans3
transactions in sparse format
with
3 transactions (rows) and
4items (columns)
原理
討論了乙個資料集從鍊錶,矩陣,資料框轉換成事務。
展示事務及關聯
r的arule包使用自帶的transactions型別來儲存事務型資料,因此,我們必須呼叫arule包提供的各種函式來展示事務及其關聯關係規則。
獲取事務資料的list表示:
list(trans)
$tr1
"bread"
"cake"
$tr2
"bread"
"milk"
$tr3
[1] "bread"
"cake"
"milk"
呼叫summary函式輸出這些事務的統計及詳細資訊:
summary(trans)
transactions as itemmatrix in sparse format
with
3 rows (elements/itemsets/transactions) and
4 columns (items) and
a density of
0.75
most frequent items:
32220
element (itemset/transaction) length distribution:
sizes33
min. 1st qu. median mean 3rd qu. max.
33333
3 includes extended item information - examples:
labels
2 bread
3 cake
includes extended transaction information - examples:
transactionid
1 tr1
2 tr2
3 tr3
呼叫inspect函式展示事務:
inspect(trans)
items transactionid
[3] tr3
根據事務大小進行篩選:
filter_trains = trans[size(trans) >= 3]
inspect(filter_trains)
items transactionid
[3] tr3
呼叫image函式視覺化檢查事務資料:
對事務視覺化
呼叫itemfrequentplot函式繪製頻繁度/支援度條形圖
事物的項頻繁度條形圖
交易資料是挖掘關聯和頻繁模式的基礎。arules包提供了多種檢查交易資料的方法,我們首先使用list函式以及鍊錶形式來展示交易資料,然後呼叫summary函式來獲取包括基本屬性描述,最頻繁項集以及事務長度分布的資訊。
接下來用inspect函式來顯示這些交易資料,讀者還可以通過交易資料大小來對 資料進行篩選,並使用inspect函式顯示資料之間的關聯,還可以呼叫image函式對檢查的資料進行視覺化處理。最後通過條形圖顯示各項集之間的相關項整合度。
R語言與關聯規則挖掘 購物籃分析
名詞 挖掘資料集 購物籃資料 挖掘目標 關聯規則 關聯規則 啤酒 尿布 支援度0.02,置信度0.6 支援度 所有資料中有2 的購物記錄包含了啤酒和尿布 置信度 所有包含啤酒的購物記錄裡有60 包含尿布 最小支援度閾值和最小置信度閾值。項集 項 商品 組成的集合 k 項集 k個項組成的集合 頻繁項集...
R語言 資料探勘 R語言如何做關聯規則?
一 前言 提到資料探勘,我們第一反應就是之前聽到的啤酒和尿不濕的故事,該故事就是典型的資料探勘中的關聯規則。購物籃分析區別於傳統的線性回歸的主要區別為,關聯分析針對離散資料 下面我們利用r語言的arules包及apriori演算法對商品交易資料進行關聯規則挖掘,二 常見關聯規則 關聯規則 牛奶 雞蛋...
r語言聚類分析 R語言實現tSNE聚類分析
t sne t distributed stochastic neighborembedding 是用於降維的一種無監督機器學習演算法,由 laurens van der maaten 和 geoffrey hinton在08年提出。t sne 作為一種非線性降維演算法,非常適用於高維資料降維到2維...