資料探勘領域十大經典演算法之 Apriori演算法

2021-08-16 09:48:35 字數 1342 閱讀 3388

先驗演算法(apriori algorithm)是關聯規則學習的經典演算法之一。先驗演算法的設計目的是為了處理包含交易資訊內容的資料庫(例如,顧客購買的商品清單,或者網頁常訪清單。)而其他的演算法則是設計用來尋找無交易資訊(如winepi演算法和minepi演算法)或無時間標記(如dna測序)的資料之間的聯絡規則。

在關聯式規則中,一般對於給定的專案集合(例如,零售交易集合,每個集合都列出的單個商品的購買資訊),演算法通常嘗試在專案集合中找出至少有c個相同的子集。先驗演算法採用自底向上的處理方法,即頻繁子集每次只擴充套件乙個物件(該步驟被稱為候選集產生),並且候選集由資料進行檢驗。當不再產生匹配條件的擴充套件物件時,演算法終止。

演算法:apriori 演算法的頻繁項集的產生

輸入:資料集d;最小支援度閾值min_sup

輸出:d 中的頻繁項集l

(1) l1 = find_frequent_1-itemset( d );

(2) for( k=2; lk−1≠φ; k++)

(3)

(12)  }

(13)  lk =

// 提取頻繁k-項集

(14) }

(15) return l=∪klk

;procedure

apriori_gen

(lk−1

)(1)

foreach

itemset

l1∈lk−1

(2)for

each

itemset

l2∈lk−1

(3)if

( l1[1]=l2[1] ∧…∧ ( l1[k-2]=l2[k-2] ) ∧ ( l1[k-1]then

(4)    {

(5)c = join

( l1, l2 );

// 連線:產生候選

(6)      if has_infrequent_subset( c, lk−1) then

(7)        delete c;      // 減枝:移除非頻繁的候選

(8)      else

(9)        add c to ck

(10)    }

(11) return ck

;procedure

has_infrequent_subset

( c, lk−1

)// 使用先驗知識判斷候選項集是否頻繁

(1)for

each

( k-1 )-subsetsof

c(2)

ifs ∉lk−1 then

(3)return

true;

(4) return false;

資料探勘領域十大經典演算法

2009年,wu xindong 出版的一本書名叫 the top ten algorithms in data mining,裡面有關於演算法的介紹 一 c4.5,分類決策樹演算法 二 the k means algorithm 即k means演算法,聚類演算法 三 support vector...

資料探勘十大經典演算法

最近想看看資料探勘是個什麼東西,因此特別的關注了下,首先看看資料探勘包含哪些演算法,網上找到了十大經典演算法 01.c4.5 是機器學習演算法中的一種分類決策樹演算法,其核心演算法是 id3演算法 02.k means演算法 是一種聚類演算法。03.svm 一種 監督式學習 的方法,廣泛運用於統計分...

資料探勘十大經典演算法

1 c4.5 2 k means 3 svm 4 apriori 5 em 6 pagerank 7 adaboost 8 knn 9 bayes 10 cart 1 c4.5 計算增益率 step1 計算資料集d的熵 單位為位元 info d step2 計算每個屬性的熵info x d step...