是無監督機器學習方法,用於知識發現,而非**,無需事先對訓練資料進行打標籤,因為無監督學習沒有訓練這個步驟。缺點是很難對關聯規則學習器進行模型評估,一般都可以通過肉眼觀測結果是否合理。
一,概念術語
1,項集itermset
如上每個內的都稱為乙個項集,lhs,rhs成為左右項集,他們之間不能有重複值交集
2,支援度support
項集的支援度就是該項集出現的次數除以總的記錄數(交易數),意義是要統計出頻繁項集
3,置信度confidence
關聯規則 x -> y 的置信度 計算公式
規則的置信度的意義在於項集同時出現的次數佔項集出現次數的比例。發生x的條件下,又發生y的概率。條件概率
4,提公升度 lift
關聯概率準比上原始概率得出,如果提公升度很小的值說明關聯出來的概率還不如原始概率跟高效,更有說服力,一般的提公升度大於3認為會認為挖掘推薦更有意義。
二,生成規則
一般兩步:
第一步的計算量比第二部的計算量大。
三,apriori演算法
需要載入r裡面arules,沒有的話自行安裝下
源資料:groceries 資料集,每一行代表一筆交易所購買的產品(item)
資料轉換:建立稀疏矩陣,每個item一列,每一行代表乙個transaction。1表示該transaction購買了該item,0表示沒有購買,arules包的函式read.transactions可以讀入源資料並建立稀疏矩陣。
groceries
data.csv的資料類似如下:
在r語言裡面檢視這個groceries:
生成規則,共463條
檢視具體規則:
按照指定排序來檢視規則:
(按照lift排序)
(搜尋verries)
可以把過濾好的資料存到csv格式
write(groceryrules, file = "groceryrules.csv",sep = ",", quote = true, row.names = false)
雜湊演算法的理解和應用
我們下面引用一段文本來解釋什麼是雜湊演算法 雜湊是一種加密演算法 雜湊函式 hash function 也稱為雜湊函式或雜湊函式。雜湊函式是乙個公開函式,可以將任意長度的訊息m對映成為乙個長度較短且長度固定的值h m 稱h m 為雜湊值 雜湊值 hash value 雜湊值或者訊息摘要 messag...
基於行為心理學的網路購物推薦演算法思考
移植自己的一篇部落格,以作備份。背景 隨著網際網路的發展,網路購物系統在整個購物體系中所佔比例越來越大,京東 亞馬遜 蘇寧等在人們日常生活中起到越來越大的作用。那麼推薦系統 推薦演算法起到越來越大的作用,就如銷售一樣,可以為網路 增加銷售額,提高利潤率。通過研究客戶網上購物行為心理,可以更好的設計推...
基於層次的聚類 AGNES演算法使用(R語言)
凝聚 產生資料集 x c rnorm 200,30,1 rnorm 200,10,1.5 rnorm 100,5,0.5 y c rnorm 200,30,1 rnorm 200,10,1.5 rnorm 100,5,0.5 data data.frame x,y 彩色空間 library colo...