對於一堆資料,我們不知道那些屬性是相關的。
這個時候,我們就可以利用apriori演算法分析並發現相關的物品、或者說屬性。
這些相關的屬性或者物品,就稱為頻繁項集。即在資料中頻繁出現的專案集合。
基於頻繁項集,就能進一步分析其關聯規則。
apriori作用是:進行關聯分析,關聯規則學習。屬於無監督學習的一種。
支援度:包含該項集的記錄佔整個資料集的比例。
實際使用中,會指定乙個支援度作為臨界點。
支援度是針對項集而言的。
置信度:也可稱為可信度。
支援度(項集)/支援度(項集某一分項)
置信度是針對關聯規則而言的。
關聯規則可以簡單化為:"如果……那麼"的關係。
這兩個概念是用來量化關聯分析是否成功的方法。
由於把所有物品的清單進行組合,然後計算頻繁項集,這種計算量是非常大的,而且實際執行會非常慢。
所以才有了apriori演算法,其基本目的是減少運算量。
基本思想是:
如果某個項集是頻繁的,那麼其子集也是頻繁的。
如果某個子集是非頻繁的,那麼其超集也是非頻繁的。(重點)
這就能在頻繁項集分析中,根據指定的支援度,減少很多不必要的組合分支的計算。
Apriori演算法 關聯分析
apriori演算法是資料探勘演算法中的重要一員,它是通過對資料集進行關聯分析,從而分析出資料集裡項與項之間的關聯關係。演算法最簡單直接的應用,當屬對超市裡被購買的物品的關聯分析,從而挖掘出顧客購買產品及其附屬產品的關係,例如經典的尿布與啤酒,或者現在各大電商 上,當入手一樣物品後,會給推送來各種很...
關聯分析演算法Apriori介紹
apriori 演算法其名字是因為演算法基於先驗知識 prior knowledge 根據前一次找到的頻繁項來生成本次的頻繁項。apriori 是關聯分析中核心的演算法。apriori 演算法的特點 只能處理分類變數,無法處理數值型變數 資料儲存可以是交易資料格式 事務表 或者是事實表方式 資料 演...
關聯分析(一) Apriori演算法
關聯分析分為非時序關聯分析和時序關聯分析,其中非時序關聯分析採用apriori演算法,利用先驗知識產生頻繁項集以及關聯規則,而時序關聯分析採用gsp演算法。apriori演算法 其名字是因為演算法基於先驗知識 prior knowledge 根據前一次找到的頻繁項來生成本次的頻繁項。apriori是...