R語言資料探勘值關聯規則挖掘

2021-06-22 15:41:39 字數 1638 閱讀 9079



關聯規則挖掘步驟及**如下:

設定工作目錄

setwd("e:/project/rexample/enterpresponser_apriori")

載入兩個包

library("matrix")

library("arules")

讀取資料:幫助文件(

)tr<-read.transactions("my_transactions.txt",format="single",sep="\t",cols<-c(1,2),rm.duplicates=true)

其中format表示輸入資料的格式,transactions可以接受兩種資料格式,即single型和basket型

single型表現為兩列,第一列為交易號,第二列為該交易中包含的一項,例如:

1 可樂

1 雪碧

2 芬達

1 美年達

2 王老吉

basket型一行表示一條交易記錄,交易項之間用分隔符分開,分隔符在sep引數中設定:

可樂 雪碧 美年達

芬達 王老吉

當single型資料中包含重複的行時,該方法會報錯。可使用引數 rm.duplicates=true   去除重複的行

也可以在匯入交易資料前先對資料集進行處理,出去重複的行:(

)origindata<-read.table("origindata.txt",...)

dup<-duplicated(origindata)   返回乙個布林向量和前面重複了則為true[flase,false,false,true,false,true......]

rmdupdata<-origindata[!dup,]   返回乙個dataframe只保留了不重複的行

write.table(file="rmdupdata.txt",sep="\t",quote=false,row.names=false)   將去重的datafrme寫入文件

檢視transactions

>tr                        輸出tr摘要

>inspect(tr[1:n])   輸出tr前n行      

關聯分析  參考

rules = apriori(tr,parameter = list(support = 0.01,confidence = 0.2))

inspect(sort(rules,by="support")[1:10])          #按支援度檢視前10條規則

inspect(sort(rules,by="confidence")[1:10])     #按置信度檢視前10條規則

itemfrequencyplot(tr,support = 0.05,cex.names =0.8)                    #資料畫頻繁項的圖

plot(rules, shading="order", control=list(main = "two-key plot"))                    #見chart.1

plot(rules, method="grouped")                         #見chart.2

plot(rules, method="graph")                              #見chart.3

R語言資料探勘2 1 2 1 關聯規則

2.1.2.1 關聯規則 關聯分析可以從海量資料集中發現有意義的關係,這種關係可以表示成關聯規則的形式或頻繁項集的形式。具體的關聯分析演算法將在後面乙個章節中給出。關聯規則挖掘旨在發現給定資料集 事務資料集或其他序列 模式 型別資料集 中的結果規則集合。給定預先定義的最小支援度計數s和置信度c,給定...

資料探勘 關聯規則挖掘

關聯規則 association rule 是資料中所蘊含的一類重要規律。關聯規則挖掘的目標是在資料專案中找出所有的併發關係 cooccurrence relationships 這種關係也稱為關聯 association 關聯規則挖掘的經典應用是購物籃 market basket 關聯規則挖掘並沒...

R語言 資料探勘 R語言如何做關聯規則?

一 前言 提到資料探勘,我們第一反應就是之前聽到的啤酒和尿不濕的故事,該故事就是典型的資料探勘中的關聯規則。購物籃分析區別於傳統的線性回歸的主要區別為,關聯分析針對離散資料 下面我們利用r語言的arules包及apriori演算法對商品交易資料進行關聯規則挖掘,二 常見關聯規則 關聯規則 牛奶 雞蛋...