推薦系統 關聯規則挖掘

2021-07-12 02:09:34 字數 2356 閱讀 8916

購物籃分析(關聯規則挖掘,頻繁規則挖掘)

挖掘資料集(事務資料集,交易資料集):購物籃資料

頻繁模式:頻繁地出現在資料集中的模式,例如項集,子結構,子串行等

挖掘目標:頻繁模式,頻繁項集,關聯規則等

關聯規則:牛奶=》雞蛋【支援度=2%,置信度=60%】

支援度:分析中的全部事物的2%同時購買了牛奶和雞蛋

置信度:購買了牛奶的筒子有60%也購買了雞蛋

最小支援度閾值和最小置信度閾值:由挖掘者或領域專家設定

項集:項(商品)的集合

k-項集:k個項組成的集合

頻繁項集:滿足最小支援度的項集,頻繁k-項集一般記為lk

強關聯規則:滿足最小支援度閾值和最小置信度閾值的規則

我感覺:主要就是挖掘頻繁模式或者頻繁項集(頻繁項集是頻繁模式的一種),進而找到關聯規則。

兩步過程:找出所有頻繁項集;由頻繁項集產生強關聯規則

演算法:apriori

例子:

apriori演算法的工作過程:

步驟說明:

掃瞄d,對每個候選項計數,生成候選1-項集c1

定義最小支援度閾值為2,從c1生成頻繁1-項集l1

通過l1xl1生成候選2-項集c2

掃瞄d,對c2裡每個項計數,生成頻繁2-項集l2

計算l3xl3,利用apriori性質:頻繁項集的子集必然是頻繁的,我們可以刪去一部分項,從而得到c3,由c3再經過支援度計數生成l3

可見apriori演算法可以分成連線,剪枝兩個步驟不斷迴圈重複

由頻繁項集提取關聯規則:

例子:我們計算出頻繁項集,能提取哪些規則?

i1^i2=>i5,由於出現了2次,出現了4次,故置信度為2/4=50%

類似可以算出

演算法的缺點:l1到c2是笛卡爾積,如果l1比較大,c2難以想象,如果要控制l1較小,則需要提高支援度。有時候不需要提交支援度,那怎麼樣進行優化呢?

基於雜湊的演算法(基本不用,不做講解)

基於fp tree的演算法(如下)

挖掘過程圖示:

fp-growth演算法偽**:

fpgrowth演算法出來以後,因為他很耗記憶體(建立樹),一台機器的記憶體可能不夠,所以我們如果能把他分散在多台計算機裡面計算的話,那麼可以減少我們計算的複雜程度,

進而誕生出了pfp

分布式fp-growth

如果reduce階段採用上述,reduce階段資料量一樣會非常大,一樣沒有解決問題,若果吧reduce的任務放在多個機器上,會有多台機器之間的互動(資料丟失,互動),也沒有解決問題,可以採用對映的方式,機器直接也不會資料存在丟失或者互動。如下步驟(g-list):

主要步驟:

將資料集分片

計數,產生排序的f-list

將物品分組,產生g-list(這個樣子可以導致reduce在許多臺機器上同時執行)

(pfp演算法關鍵步驟)並行fp-growth過程

聚合結果

應用:網頁中的最佳拍檔:如下所示:

互斥的商品,例如同類的自行車,汽車,內容相近的書籍,此時不能使用**推薦

推薦相近商品的時候使用瀏覽記錄,使用購買記錄更類似於關聯規則挖掘

考慮興趣的時效性,例如已經購買了某種自行車,就沒必要再向使用者推薦相近的自行車

總結一下:當我們推薦相近商品的時候,最好可以使用瀏覽記錄來進行推薦,使用基於物品的協同過濾演算法;

如果要推薦**的話,最好是基於購買記錄,購物籃分析,用關聯模式挖掘(關聯規則挖掘)。

推薦系統 關聯規則 1

說到推薦系統,就不能不說關聯規則。基於關聯規則的推薦,是入門級的推薦技術實現,也是目前應用最廣泛的一種推薦形式。關聯規則起源於資料探勘領域,人們用它來發現大量資料中項集之間 有趣 有用 的關聯。它本身是資料探勘領域中乙個重要的研究課題,近些年來更是由於被業界廣泛應用而倍受重視。rakesh agra...

關聯規則挖掘

關聯規則反映事物之間的相互依存性和關聯性。如果事物之間存在一定的關聯,那麼我們就可以通過乙個事物去 另乙個事物。我們要挖掘大量資料中人們感興趣的,有價值的資訊,包括概念,規則,規律等。關聯規則 發現資料中的規律 超市中什麼產品會 起購買?組合推薦 顧客在買了 臺pc之後下 步會購買?搭配推薦 哪種d...

關聯規則挖掘

直接用例項來解釋概念更清楚一些,加入資料庫中存在10條交易記錄 transaction 具體如下表所示 交易id tid 購買商品 items b bread c cream m milk t tea t01b c m t t02b c m t03c m t04m t t05b c m t06b t...