1.1什麼是資料探勘?
1.2從資料中發現知識的步驟
1.3資料探勘的任務
1.傳統資料探勘任務
2.網際網路時代的資料探勘任務
社交網路分析
商品推薦
網際網路搜尋排序
網際網路廣告
1.4相關領域
1.5 資料探勘的方法
資料探勘的方法有很多種,常見的有:
監督學習(或者稱為分類)
無監督學習(或者稱為聚類)
關聯規則挖掘
序列模式挖掘
1.6資料探勘經典案例
通俗的理解,資料探勘就是從資料中發掘規律,利用規律創造價值。啤酒與尿布 是很經典的資料探勘案例:在超市中,把啤酒和尿布擺在一起會使啤酒和尿布這兩種風馬牛不相及的商品銷量大幅增加。原因是美國的婦女通常在家照顧孩子,丈夫去超市購物時會買上自己需要的啤酒和孩子需要的尿布。這個發現給商家帶來了利潤,那麼這個規律是怎麼發現的?靠的就是資料探勘,通過資料探勘還可以發現更多有價值的規律。
2.1關聯規則的基本概念
設i=、都是所有商品的子集.買了羽毛拍又買了羽毛球就是乙個關聯規則.記做2.2支援度和置信度羽毛球拍 →羽毛球
支援度:t中的交易同時包含x和y.
sup=(x∪y).count/n置信度:t中包含x的事務同時包含y
conf=(x∪y).count/x.count舉例來理解這兩個概念,下面乙個包含7個事務的事務集合:
t1: 牛肉、雞肉、牛奶
t2: 牛肉、乳酪
t3:乳酪、靴子
t4:牛肉、雞肉、乳酪
t5:牛肉、雞肉、衣服、乳酪、牛奶
t6:雞肉、衣服、牛奶
t7:雞肉、牛奶、衣服
牛肉→雞肉 [sup=3/7,conf=3/4]
雞肉,衣服→牛奶 [sup=3/7,conf=3/3]
支援度太小則表明相應的規則很可能只是偶然發生的,在商業環境中覆蓋太少案例的規則很可能沒有任何價值.置信度決定了規則的可**度,如果乙個規則的置信度太低,則從x很難推斷出y,置信度太低的規則在實際應用中也不會有很大的用處.最小支援度和最小置信度分別用minsup和minconf表示
給定乙個事務資料集合怎麼找出其中的關聯規則?關聯規則挖掘演算法有很多,採用的不一樣的演算法在演算法執行效率上各有不同,但是在同樣的關聯規則下挖掘出的關聯規則應該是一樣的.其中最著名的是apriori演算法.
apriori演算法分兩步進行:
生成所有頻繁專案集:乙個頻繁專案集是乙個支援度高於minsup的集合.從頻繁專案及中生成可信關聯規則:乙個可信關聯規則是置信度大於minconf的規則.
資料探勘演算法和實踐(九) 關聯規則 Apriori
幾個重要概念 支援度 置信度 提公升度 apriori 演算法的工作原理 在實際工作中,我們該如何進行關聯規則挖掘 舉乙個超市購物的例子,下面是幾名客戶購買的商品列表 訂單編號 購買商品 1 牛奶 麵包 尿布 2可樂 麵包 尿布 啤酒 3牛奶 尿布 啤酒 雞蛋 4麵包 牛奶 尿布 啤酒 5麵包 牛奶...
關聯規則挖掘基本概念與Aprior演算法
我計畫整理資料探勘的基本概念和演算法,包括關聯規則挖掘 分類 聚類的常用演算法,敬請期待。今天講的是關聯規則挖掘的最基本的知識。關聯規則挖掘在電商 零售 大氣物理 生物醫學已經有了廣泛的應用,本篇文章將介紹一些基本知識和aprori演算法。啤酒與尿布的故事已經成為了關聯規則挖掘的經典案例,還有人專門...
關聯規則挖掘基本概念與Aprior演算法
關聯規則挖掘在電商 零售 大氣物理 生物醫學已經有了廣泛的應用,本篇文章將介紹一些基本知識和aprori演算法。啤酒與尿布的故事已經成為了關聯規則挖掘的經典案例,還有人專門出了一本書 啤酒與尿布 雖然說這個故事是哈弗商學院杜撰出來的,但確實能很好的解釋關聯規則挖掘的原理。我們這裡以乙個超市購物籃迷你...