***
說到推薦系統,就不能不說關聯規則。基於關聯規則的推薦,是入門級的推薦技術實現,也是目前應用最廣泛的一種推薦形式。
關聯規則起源於資料探勘領域,人們用它來發現大量資料中項集之間(有趣/有用)的關聯。它本身是資料探勘領域中乙個重要的研究課題,近些年來更是由於被業界廣泛應用而倍受重視。rakesh agrawal 是關聯規則領域的大牛,他於 1993 年發表的一篇 *****,《mining association rules between sets of items in large databases》,是被引用最多的一篇大作。不過讓 google fans 們失望的是,他目前就職於 microsoft 的搜尋實驗室!^_^
關聯規則的最典型例子就是購物籃分析。在一家超市裡,有乙個有趣的現象:尿布和啤酒赫然擺在一起**。但是這個奇怪的舉措卻使尿布和啤酒的銷量雙雙 增加 了。這不是乙個笑話,而是發生在美國沃爾瑪連鎖店超市的真實案例,並一直為商家所津津樂道。原來,美國的婦女們經常會囑咐她們的丈夫下班以後要為孩子買尿 布。而丈夫在買完尿布之後又要順手買回自己愛喝的啤酒,因此啤酒和尿布在一起購買的機會還是很多的。這個故事聽起來是不是很酷?沒錯,這就是技術的力量!
但是,和任何其他經典的故事一樣——這事兒聽起來帶勁兒,做起來很難!真正做過關聯規則挖掘的人,一定都有這樣的體會:想從浩瀚的記錄集裡,挖掘一條帶勁兒的關聯規則出來,簡直太難了。(什麼,你問有多難?請參照朱廣滬~~~)
對於挖掘得到的關聯規則,都會制定一些指標來衡量它們的有效程度,最經典的包括,支援度和置信度。簡單來講,
支援度是指,商品a、商品b在全部銷售訂單中所佔的比例。
置信度是指,購買商品a並且同時購買了商品b的訂單,在所有包含商品a的訂單中所佔的比例。
當然,這裡的商品和訂單是個泛化的概念,具體指代是的什麼,就得具體問題具體分析了。
未完待續~~~
推薦系統 關聯規則挖掘
購物籃分析 關聯規則挖掘,頻繁規則挖掘 挖掘資料集 事務資料集,交易資料集 購物籃資料 頻繁模式 頻繁地出現在資料集中的模式,例如項集,子結構,子串行等 挖掘目標 頻繁模式,頻繁項集,關聯規則等 關聯規則 牛奶 雞蛋 支援度 2 置信度 60 支援度 分析中的全部事物的2 同時購買了牛奶和雞蛋 置信...
關聯規則推薦及Apriori演算法
參考這篇文章 這條關聯規則的支援度 support p a並b 這條關聯規則的置信度 confidence support a並b suport a apriori演算法指導我們,如果要發現強關聯規則,就必須先找到頻繁集。所謂頻繁集,即支援度大於最小支援度的項集。如何得到資料集合d中的所有頻繁集呢?...
基於關聯規則的推薦綜述
基於關聯規則的推薦思想類似基於物品的協同過濾推薦 啤酒與尿布 關聯分析中最有名的例子就是 啤酒與尿布 原來,在美國,婦女們經常會囑咐她們的丈夫下班以後給孩子買一點尿布回來,而丈夫在買完尿布後,大都會順手買回一瓶自己愛喝的啤酒 由此看出美國人愛喝酒 商家通過對一年多的原始交易記錄進行詳細的分析,發現了...