步驟:
(一) 選擇資料來源
(二)選擇要分析的字段
(三)選擇需要的關聯規則演算法
(四)點選start執行
(五) 分析結果
演算法選擇:
apriori演算法引數含義
1.car:如果設為真,則會挖掘類關聯規則而不是全域性關聯規則。
2.classindex: 類屬性索引。如果設定為-1,最後的屬性被當做類屬性。
3.delta: 以此數值為迭代遞減單位。不斷減小支援度直至達到最小支援度或產生了滿足數量要求的規則。
4.lowerboundminsupport: 最小支援度下界。
5.metrictype: 度量型別,設定對規則進行排序的度量依據。可以是:置信度(類關聯規則只能用置信度挖掘),提公升度(lift),槓桿率(leverage),確信度(conviction)。
在 weka中設定了幾個類似置信度(confidence)的度量來衡量規則的關聯程度,它們分別是:
a)lift : p(a,b)/(p(a)p(b)) lift=1時表示a和b獨立。這個數越大(>1),越表明a和b存在於乙個購物籃中不是偶然現象,有較強的關聯度.
b)leverage :p(a,b)-p(a)p(b)
leverage=0時a和b獨立,leverage越大a和b的關係越密切
c) conviction:p(a)p(!b)/p(a,!b) (!b表示b沒有發生) conviction也是用來衡量a和b的獨立性。從它和lift的關係(對b取反,代入lift公式後求倒數)可以看出,這個值越大, a、b越關聯。
6.minmtric :度量的最小值。
7.numrules: 要發現的規則數。
8.outputitemsets: 如果設定為真,會在結果中輸出項集。
9.removeallmissingcols: 移除全部為預設值的列。
10.significancelevel :重要程度。重要性測試(僅用於置信度)。
11.upperboundminsupport: 最小支援度上界。 從這個值開始迭代減小最小支援度。
12.verbose: 如果設定為真,則演算法會以冗餘模式執行。
fpgrowph決策樹演算法
fp的全稱是frequent pattern,在演算法中使用了一種稱為頻繁模式樹(frequent pattern tree)的資料結構。fp-tree是一種特殊的字首樹,由頻繁項頭表和項字首樹構成。fp-growth演算法基於以上的結構加快整個挖掘過程。
Weka機器學習 06 關聯
關聯規則反映了乙個物件與其他物件之間的相互依賴關係,如果多個物件之間存在一定的關聯關係,那麼,其中乙個物件就能夠通過其他物件進行 關聯規則通常需要根據覆蓋率和準確率進行修剪。覆蓋率也稱為支援度,支援度計數是應用規則後 正確的例項的數量,支援度是支援度計數與例項總數的比值。準確率也成為置信度,表示支援...
資料探勘之關聯規則分析
關聯規則分析也稱為購物籃分析,最早是為了發現超市銷售資料庫中不同的商品之間的關聯關係。用於尋找資料集中各項之間的關聯關係。根據所挖掘的關聯關係,可以從乙個屬性的資訊來推斷另乙個屬性的資訊。當置信度達到某一閾值時,可以認為規則成立。常用的關聯規則演算法 演算法名稱 演算法描述 apriori 關聯規則...
關聯規則之apriori
import sys db 1,3,4 2,3,5 1,2,3,5 2,5 db1 l1 l2 l5 l2 l4 l2 l3 l1 l2 l4 l1 l3 l2 l3 l1 l3 l1 l2 l3 l5 l1 l2 l3 def convert db db return list map froze...