先驗演算法(apriori algorithm)是關聯規則學習的經典演算法之一。先驗演算法的設計目的是為了處理包含交易資訊內容的資料庫(例如,顧客購買的商品清單,或者網頁常訪清單。)而其他的演算法則是設計用來尋找無交易資訊(如winepi演算法和minepi演算法)或無時間標記(如dna測序)的資料之間的聯絡規則。
在關聯式規則中,一般對於給定的專案集合(例如,零售交易集合,每個集合都列出的單個商品的購買資訊),演算法通常嘗試在專案集合中找出至少有c個相同的子集。先驗演算法採用自底向上的處理方法,即頻繁子集每次只擴充套件乙個物件(該步驟被稱為候選集產生),並且候選集由資料進行檢驗。當不再產生匹配條件的擴充套件物件時,演算法終止。
演算法:apriori 演算法的頻繁項集的產生
輸入:資料集d;最小支援度閾值min_sup
輸出:d 中的頻繁項集l
(1) l1 = find_frequent_1-itemset( d );
(2) for( k=2; lk−1≠φ; k++)
(3)
(12) }
(13) lk =
// 提取頻繁k-項集
(14) }
(15) return l=∪klk
;procedure
apriori_gen
(lk−1
)(1)
foreach
itemset
l1∈lk−1
(2)for
each
itemset
l2∈lk−1
(3)if
( l1[1]=l2[1] ∧…∧ ( l1[k-2]=l2[k-2] ) ∧ ( l1[k-1]then
(4) {
(5)c = join
( l1, l2 );
// 連線:產生候選
(6) if has_infrequent_subset( c, lk−1) then
(7) delete c; // 減枝:移除非頻繁的候選
(8) else
(9) add c to ck
(10) }
(11) return ck
;procedure
has_infrequent_subset
( c, lk−1
)// 使用先驗知識判斷候選項集是否頻繁
(1)for
each
( k-1 )-subsetsof
c(2)
ifs ∉lk−1 then
(3)return
true;
(4) return false;
資料探勘領域十大經典演算法
2009年,wu xindong 出版的一本書名叫 the top ten algorithms in data mining,裡面有關於演算法的介紹 一 c4.5,分類決策樹演算法 二 the k means algorithm 即k means演算法,聚類演算法 三 support vector...
資料探勘十大經典演算法
最近想看看資料探勘是個什麼東西,因此特別的關注了下,首先看看資料探勘包含哪些演算法,網上找到了十大經典演算法 01.c4.5 是機器學習演算法中的一種分類決策樹演算法,其核心演算法是 id3演算法 02.k means演算法 是一種聚類演算法。03.svm 一種 監督式學習 的方法,廣泛運用於統計分...
資料探勘十大經典演算法
1 c4.5 2 k means 3 svm 4 apriori 5 em 6 pagerank 7 adaboost 8 knn 9 bayes 10 cart 1 c4.5 計算增益率 step1 計算資料集d的熵 單位為位元 info d step2 計算每個屬性的熵info x d step...