本文所有涉及到的資料探勘**的都放在了我的github上了。
大概花了將近2
個月的時間,自己把
18大資料探勘的經典演算法進行了學習並且進行了**實現,涉及到了決策分類,聚類,鏈結挖掘,關聯挖掘,模式挖掘等等方面。也算是對資料探勘領域的小小入門了吧。下面就做個小小的總結,後面都是我自己相應演算法的博文鏈結,希望能夠幫助大家學習。
1.c4.5演算法。
c4.5
演算法與id3
演算法一樣,都是數學分類演算法,
c4.5
演算法是id3
演算法的乙個改進。
id3演算法採用資訊增益進行決策判斷,而
c4.5
採用的是增益率。
2.cart演算法。
cart
演算法的全稱是分類回歸樹演算法,他是乙個二元分類,採用的是類似於熵的基尼指數作為分類決策,形成決策樹後之後還要進行剪枝,我自己在實現整個演算法的時候採用的是代價複雜度演算法,
3.knn(k最近鄰
)演算法。給定一些已經訓練好的資料,輸入乙個新的測試資料點,計算包含於此測試資料點的最近的點的分類情況,哪個分類的型別占多數,則此測試點的分類與此相同,所以在這裡
,有的時候可以複製不同的分類點不同的權重。近的點的權重大點,遠的點自然就小點。
4.***** bayes(樸素貝葉斯
)演算法。樸素貝葉斯演算法是貝葉斯演算法裡面一種比較簡單的分類演算法,用到了乙個比較重要的貝葉斯定理,用一句簡單的話概括就是條件概率的相互轉換推導。
5.svm(支援向量機
)演算法。支援向量機演算法是一種對線性和非線性資料進行分類的方法,非線性資料進行分類的時候可以通過核函式轉為線性的情況再處理。其中的乙個關鍵的步驟是搜尋最大邊緣超平面。
6.em(期望最大化
)演算法。期望最大化演算法,可以拆分為
2個演算法,1個
e-step
期望化步驟,和
1個m-step
最大化步驟。他是一種演算法框架,在每次計算結果之後,逼近統計模型引數的最大似然或最大後驗估計。
7.apriori演算法。
apriori
演算法是關聯規則挖掘演算法,通過連線和剪枝運算挖掘出頻繁項集,然後根據頻繁項集得到關聯規則,關聯規則的匯出需要滿足最小置信度的要求。
8.fp-tree(頻繁模式樹
)演算法。這個演算法也有被稱為
fp-growth
演算法,這個演算法克服了
apriori
演算法的產生過多侯選集的缺點,通過遞迴的產生頻度模式樹,然後對樹進行挖掘,後面的過程與
apriori
演算法一致。
9.pagerank(網頁重要性/排名
)演算法。
pagerank
演算法最早產生於
google,
核心思想是通過網頁的入鏈數作為乙個網頁好快的判定標準,如果
1個網頁內部包含了多個指向外部的鏈結,則
pr值將會被均分,
pagerank
演算法也會遭到
link span
攻擊。10.hits演算法。
hits
演算法是另外乙個鏈結演算法,部分原理與
pagerank
演算法是比較相似的,
hits
演算法引入了權威值和中心值的概念,
hits
演算法是受使用者查詢條件影響的,他一般用於小規模的資料鏈結分析,也更容易遭受到攻擊。
11.k-means(k均值
)演算法。
k-means
演算法是聚類演算法,
k在在這裡指的是分類的型別數,所以在開始設定的時候非常關鍵,演算法的原理是首先假定
k個分類點,然後根據歐式距離計算分類,然後去同分類的均值作為新的聚簇中心,迴圈操作直到收斂。
12.birch演算法。
birch
演算法利用構建
cf聚類特徵樹作為演算法的核心,通過樹的形式,
birch
演算法掃瞄資料庫,在記憶體中建立一棵初始的
cf-樹,可以看做資料的多層壓縮。
13.adaboost演算法。
adaboost
演算法是一種提公升演算法,通過對資料的多次訓練得到多個互補的分類器,然後組合多個分類器,構成乙個更加準確的分類器。
14.gsp演算法。
gsp演算法是序列模式挖掘演算法。
gsp演算法也是
apriori
類演算法,在演算法的過程中也會進行連線和剪枝操作,不過在剪枝判斷的時候還加上了一些時間上的約束等條件。
15.prefixspan演算法。
prefixspan
演算法是另乙個序列模式挖掘演算法,在演算法的過程中不會產生候選集,給定初始字首模式,不斷的通過字尾模式中的元素轉到字首模式中,而不斷的遞迴挖掘下去。
16.cba(基於關聯規則分類
)演算法。
cba演算法是一種整合挖掘演算法,因為他是建立在關聯規則挖掘演算法之上的,在已有的關聯規則理論前提下,做分類判斷,只是在演算法的開始時對資料做處理,變成類似於事務的形式。
17.roughsets(粗糙集
)演算法。粗糙集理論是乙個比較新穎的資料探勘思想。這裡使用的是用粗糙集進行屬性約簡的演算法,通過上下近似集的判斷刪除無效的屬性,進行規制的輸出。
18.gspan演算法。
gspan
演算法屬於圖挖掘演算法領域。,主要用於頻繁子圖的挖掘,相較於其他的圖演算法,子圖挖掘演算法是他們的乙個前提或基礎演算法。
gspan
演算法用到了
dfs編碼,和
edge
五元組,最右路徑子圖擴充套件等概念,演算法比較的抽象和複雜。
18大經典資料探勘演算法小結
1.c4.5演算法。c4.5演算法與id3演算法一樣,都是數學分類演算法,c4.5演算法是id3演算法的乙個改進。id3演算法採用資訊增益進行決策判斷,而c4.5採用的是增益率。2.cart演算法。cart演算法的全稱是分類回歸樹演算法,他是乙個二元分類,採用的是類似於熵的基尼指數作為分類決策,形成...
18大經典資料探勘演算法小結
本文所有涉及到的資料探勘 的都放在了我的github上了。大概花了將近2 個月的時間,自己把 18大資料探勘的經典演算法進行了學習並且進行了 實現,涉及到了決策分類,聚類,鏈結挖掘,關聯挖掘,模式挖掘等等方面。也算是對資料探勘領域的小小入門了吧。下面就做個小小的總結,後面都是我自己相應演算法的博文鏈...
18大經典資料探勘演算法小結
本文所有涉及到的資料探勘 的都放在了我的github上了。大概花了將近2個月的時間,自己把18大資料探勘的經典演算法進行了學習並且進行了 實現,涉及到了決策分類,聚類,鏈結挖掘,關聯挖掘,模式挖掘等等方面。也算是對資料探勘領域的小小入門了吧。下面就做個小小的總結,後面都是我自己相應演算法的博文鏈結,...