資料探勘十大經典演算法 Apriori

2021-09-22 19:20:53 字數 627 閱讀 1054

資料探勘十大經典演算法(4)apriori

apriori演算法是種最有影響的挖掘布林關聯規則頻繁項集的演算法。它的核心是基於兩階段頻集思想的遞推演算法。該關聯規則在分類上屬於單維、單層、布林關聯規則。在這裡,所有支援度大於最小支援度的項集稱為頻繁項集(簡稱頻集),也常稱為最大專案集。

在apriori演算法中,尋找最大專案集(頻繁項集)的基本思想是:演算法需要對資料集進行多步處理。第一步,簡單統計所有含乙個元素專案集出現的頻數,並找出那些不小於最小支援度的專案集,即一維最大專案集。從第二步開始迴圈處理直到再沒有最大專案集生成。迴圈過程是:第k步中,根據第k-1步生成的(k-1)維最大專案集產生k維侯選專案集,然後對資料庫進行搜尋,得到侯選專案集的項集支援度,與最小支援度進行比較,從而找到k維最大專案集。

從演算法的執行過程,我們可以看出該apriori演算法的優點:簡單、易理解、資料要求低,然而我們也可以看到apriori演算法的缺點:

(1)在每一步產生侯選專案集時迴圈產生的組合過多,沒有排除不應該參與組合的元素;

(2)每次計算項集的支援度時,都對資料庫d中的全部記錄進行了一遍掃瞄比較,如果是乙個大型的資料庫的話,這種掃瞄比較會大大增加計算機系統的i/o開銷。而這種代價是隨著資料庫的記錄的增加呈現出幾何級數的增加。因此人們開始尋求更好效能的演算法,如f-p演算法。

資料探勘十大經典演算法

最近想看看資料探勘是個什麼東西,因此特別的關注了下,首先看看資料探勘包含哪些演算法,網上找到了十大經典演算法 01.c4.5 是機器學習演算法中的一種分類決策樹演算法,其核心演算法是 id3演算法 02.k means演算法 是一種聚類演算法。03.svm 一種 監督式學習 的方法,廣泛運用於統計分...

資料探勘十大經典演算法

1 c4.5 2 k means 3 svm 4 apriori 5 em 6 pagerank 7 adaboost 8 knn 9 bayes 10 cart 1 c4.5 計算增益率 step1 計算資料集d的熵 單位為位元 info d step2 計算每個屬性的熵info x d step...

十大經典資料探勘演算法

c4.5演算法 機器學習演算法中的乙個分類決策樹演算法 cart 分類與回歸樹 c4.5與cart都是決策樹演算法 id3用資訊增益,c4.5用資訊增益率,cart用gini係數 knn 樸素貝葉斯 bayes 在眾多的分類模型中,應用最為廣泛的兩種分類模型是決策樹模型 decision tree ...