按照不同的目的將演算法分成四類
分類演算法:c4.5 ,樸素貝葉斯,svm,knn ,adaboost , cart
聚類演算法:k-means , em
關聯分析:apriori
連線分析:pagerank
c4.5 演算法是十大演算法之首,它是決策樹的演算法,它在決策樹夠早過程中就進行了剪枝處理,並且可以處理連續的屬性,也能對不完整的資料進行處理。
樸素貝葉斯模型是基於概率論的原理,原理:對於給出的未知物體想要進行分類,就需要求解這個未知物體出現的條件下各個類別出現的概率,哪個最大,就認為未知物體屬於哪個分類
svm 也叫支援向量機,svm在訓練中建立了乙個超平面的分類模型
knn也叫k 最近鄰演算法。所謂k近鄰,就是每個樣本都可以用它最近接的k個鄰居來代表。如果乙個樣本,它的k個最接近的鄰居都屬於分類a,那麼這個樣本也屬於分類a。
.adaboost 是在訓練中建立了乙個聯合的分類模型。boost是代表提公升的意思,所以.adaboost 是構建分類器的演算法。他可以讓我們多個弱的分類器組合成強的分類器
ceat 代表分類和回歸樹,它是構建兩棵樹,一顆是分類樹,另乙個是回歸樹,它是決策樹學習方法。
apriori 是一種碗蕨關聯規則的演算法,他通過挖掘頻繁項集來揭示物品之間的關聯關係,被廣泛應用到商業挖掘和網路安全等領域中。頻繁項集是指經常出現在一起的物品的集合,關聯規則暗示著兩種物品之間可能存在很強的關係
k-means 演算法是乙個聚類演算法。想把物體劃分為k類,假設每個類別裡面,都有個中心點,即意見領袖,它是整個類別的核心。現在有乙個新點要歸類,這時候就只要計算新點與k個中心點的距離,距離哪個中心點近,就變成哪個類別。
em 演算法也叫最大期望值演算法,是求引數的最大似然估計的一種演算法。原理是:假設我們想要評估引數a和引數b,在開始狀態下二者是未知的,並且知道了a的資訊就可以得到b的資訊,反過來知道了b的資訊也就得到了a。可以考慮首先賦予a某個初值,以此得到b的估值,然後從b的估值出發,重新估計a的取值,這個過程一直持續到收斂為止。
10.pagerank
演算法是資料探勘的靈魂,也是最精華的部分
資料探勘需要數學知識,如果不了解概率論和樹立統計,還是很難掌握演算法的本質,如果不了解線性代數,就很難理解矩陣和向量運作在資料探勘中的價值,如果沒有最優化方法的概念,就對迭代收斂理解不深。
資料探勘十大演算法
資料探勘十大演算法分為c4.5,k means,svm,apriori,em,pagerank,adaboost,knn,bayes,cart十種演算法。c4.5 關聯演算法 id3。關係 c4.5是id3的改進。決策樹演算法的一種。k means 聚類演算法。svm 支援向量機。apriori 關...
資料探勘十大演算法 SVM
support vector classifier svc 與support vector regressor svr 函式間隔 mi n w x b 此時如果我們倍增w,b 可以無限擴大函式間隔,因此,它並不能作為標準 幾何間隔,是歸一化的函式間隔 mi n w x b w 為了方便討論,令幾何間...
資料探勘十大經典演算法
最近想看看資料探勘是個什麼東西,因此特別的關注了下,首先看看資料探勘包含哪些演算法,網上找到了十大經典演算法 01.c4.5 是機器學習演算法中的一種分類決策樹演算法,其核心演算法是 id3演算法 02.k means演算法 是一種聚類演算法。03.svm 一種 監督式學習 的方法,廣泛運用於統計分...