資料探勘演算法 常用關聯演算法總結

2021-09-24 17:09:13 字數 2306 閱讀 8594

關聯規則挖掘演算法就是從事務資料庫,關聯式資料庫或其他資訊儲存中的大量資料的項集之間發現頻繁出現的模式、關聯和相關性。關聯演算法在科學資料分析、雷達訊號分選、分類設計、**銷售、生物資訊學、醫療診斷及網頁挖掘等領域成果頗豐。

典型的關聯演算法包括aprior 演算法、fp-g(frequent pattern growth,頻繁模式增長樹)演算法、freespan 演算法及prefixspan 演算法等。上述各種演算法的簡單介紹如下。

apriori 演算法是第乙個關聯規則挖掘演算法。它利用逐層搜尋的迭代方法找出資料庫中項集的關係,以形成規則。其過程由連線與剪枝組成。

** apriori 演算法的優點**

1.對原始資料要求很低;

2. 這種演算法思路比較清晰直接,實施起來比較簡單。

apriori 演算法的缺點

1.aprior 演算法只適合發現短的頻繁模式,對長頻繁模式比較困難;

2.aprior 演算法需要不斷掃瞄資料庫從中尋找候選集,涉及大量i/o 操作;

3.每一步產生侯選集時迴圈產生的組合過多,未排除不應該參與組合的元素。

針對apriori 演算法的固有缺陷,韓家煒在2000 年提出了不產生候選挖掘頻繁項集的fp-g 演算法。該演算法採取分治策略,將提供頻繁項集的資料庫壓縮到一棵頻繁模式樹(fp-tree),但仍保留項集關聯資訊。

fp-g 演算法的優點

1.不產生候選集;

2.使用fp-g 結構表示乙個無序的項集很合理;

3. fp-g 演算法對不同長度的規則都有很好的適應性;

4. 通過fp-樹資料結構對原始資料進行壓縮,效率較高;

5. fp-g 演算法只需進行兩次事務資料庫掃瞄,避免i/o瓶頸。

fp-g 演算法的缺點

利用fp-g 演算法表示乙個有序的項集並進行挖掘很困難;

fp-g 演算法對由原始資料得到的fp-樹分支龐大的情況,會造成儲存壓力。

fp-g 演算法應用例項:fp-g 演算法在2015 年4 月發表於期刊《指揮資訊系統與技術》上的**題目為「基於spark 平台的海量電子對抗資料分析」中被採用。**從輻射源識別角度出發,以挖掘輻射源完整重頻引數為主要目標,採用聚類分析和頻繁項集挖掘演算法,在spark 平台上對海量電抗資料進行分析,測試資料總量達700 多萬條。電抗資料**試驗表明,spark 平台能夠很好地進行海量電抗資料分析,且並行處理效率較高。

freespan 演算法是頻繁模式投影的序列模式的挖掘。演算法利用頻繁項遞迴地將序列資料庫投影到更小的投影資料集中,在每個投影資料庫中生成子串行片段。

freespan 演算法的優點

1.不需要產生大量的候選集

2.將頻繁系列和頻繁模式的挖掘統一起來

3.挖掘工作限制在投影資料庫中,還能限制序列分片的增長

freespan 演算法的缺點

1.儲存結構不具有緊湊性;

2. 可能會產生許多投影資料庫,如果乙個模式在資料庫的每個序列**現,該模式的投影資料庫將不會縮減;

3. 乙個長度為k 的序列可能在任何位置增長,那麼長度為k+1 的候選序列必須對每個可能的組合情況進行考察,將產生很大的開銷。

prefixspan 演算法是韓家煒在2004 年提出的序列模式演算法,該演算法和他在2000 提出的fp_g 演算法有很大的相似之處,都避免產生候選序列。演算法採用分治思想,不斷產生系列資料庫的多個更小的投影資料庫,然後在各個投影資料庫上進行序列模式挖掘。

prefixspan 演算法的優點

1.prefixspan 演算法消耗相對穩定的記憶體

2.prefixspan 演算法不產生候選序列的模式增長

3.prefixspan 演算法投影資料庫隨著挖掘過程不斷縮減

prefixspan 演算法的缺點

1.儲存結構不具有緊湊性;

2. 挖掘過程是不斷約簡投影資料庫而進行的,故只有當投影資料庫為空時,這一分支的挖掘結束,因此產生了大量的投影資料庫;

3. 當資料庫中具有大量相同的字尾子串行,所產生的投影資料庫中則具有大量相同的序列,在挖掘過程中會造成對相同投影資料庫的重複挖掘。

關聯演算法的比較如表所示。

演算法名稱

時間複雜度

是否存在大量i/o 操作

產生候選集

資料緊湊性

aprior

o(n^2)

存在產生

不緊湊fp-g

o(n)

不存在不產生

緊湊freescan–存在

不產生不緊湊

prefixspan

–不存在

不產生不緊湊

資料探勘演算法 關聯關係挖掘(1)

大資料時代背景下,各行各業都有自己的資料,資料積累也越來越多,從海量的資料中,挖掘少量有效有價值的資料,是非常有必要的 如何挖掘資料的價值及資料之間存在的內在關係,是大家一直研究的問題 本篇介紹資料關聯分析,關聯分析可以應用於眾多領域,如典型的購物車資料,通過使用者的購物車分析出商品之間的關聯關係,...

資料探勘之關聯規則挖掘(Apriori演算法)

一 概述 本篇博文主要闡述資料探勘相關的關聯規則挖掘的演算法 apriori演算法 主要介紹關聯規則的基本概念 apriori演算法原理和apriori演算法例項,文章末尾處附加apriori演算法源程式。二 關聯規則挖掘的基本概念 關聯規則挖掘發現大量資料中項集之間有趣的關聯關係。如果兩項或者多項...

資料探勘之關聯規則挖掘 Apriori演算法

關聯規則,肯定很多人都聽說過 乙個男士買尿布時順帶買啤酒的事情 具體事物之間真的是否具有關聯,有多大的關聯,這就是本篇部落格需要分享學習的知識。在這裡x,y就是購買的部分商品,i表示所有的商品 其含義就是購買商品x與購買商品y之間的關聯關係 同時在這裡引入對規則定量的描述 支援度就是所買商品中中同時...