機器學習常見演算法總結 二

2021-07-22 03:38:20 字數 1171 閱讀 4970

adaboost演算法通俗地講,就是在乙個資料集上的隨機資料使用乙個分類訓練多次,每次對分類正確的資料賦權值較小,同時增大分類錯誤的資料的權重,如此反覆迭代,直到達到所需的要求。adaboost演算法步驟如下:

svm是基於結構風險(經驗風險和置信風險)最小化的機器學習演算法,支援向量機方法是建立在統計學習理論的vc 維理論和結構風險最小原理基礎上的,根據有限的樣本資訊在模型的複雜性(即對特定訓練樣本的學習精度,accuracy)和學習能力(即無錯誤地識別任意樣本的能力)之間尋求最佳折衷,以期獲得最好的推廣能力[14](或稱泛化能力)。

k-means演算法是聚類分析中使用最廣泛的演算法之一。它把n個物件根據他們的屬性分為k個聚類以便使得所獲得的聚類滿足:同一聚類中的物件相似度較高;而不同聚類中的物件相似度較小。

kmeans的計算過程大概表示如下:

- step1. 隨機選擇k個聚類中心. 最終的類別個數<= k

- step2. 計算每個樣本到各個中心的距離

- step3.每個樣本聚類到離它最近的中心

- step4.重新計算每個新類的中心

- step5.重複以上步驟直到滿足收斂要求。(通常就是中心點不再改變或滿足一定迭代次數).

偽**如下:

時間複雜度:o(tkmn),其中,t為迭代次數,k為簇的數目,m為記錄數,n為維數

空間複雜度:o((m+k)n),其中,k為簇的數目,m為記錄數,n為維數

這裡在看一下,k-means的一些問題:

1. k的選擇

k是使用者自己定義的初始化引數,一般表示資料的一種分布方式。

2. 距離度量(看knn)

3. 效能評價:

優點:本演算法確定的k 個劃分到達平方誤差最小。當聚類是密集的,且類與類之間區別明顯時,效果較好。對於處理大資料集,這個演算法是相對可伸縮和高效的,計算的複雜度為o(nkt),其中n是資料物件的數目,t是迭代的次數。一般來說,k遠遠小於n,t遠遠小於n 。

缺點:聚類中心的個數k 需要事先給定,但在實際中這個 k 值的選定是非常難以估計的,很多時候,事先並不知道給定的資料集應該分成多少個類別才最合適;kmeans需要人為地確定初始聚類中心,不同的初始聚類中心可能導致完全不同的聚類結果。(可以使用kmeans++演算法來解決)

常見機器學習演算法總結

機器學習演算法主要分為以下2種 有監督與無監督。再細分可分為四種 分類,聚類,回歸,關聯四大類演算法。分類與回歸屬於有監督學習。聚類與關聯屬於無監督學習。分類演算法主要有knn,決策樹,樸素貝葉斯,svm,邏輯回歸,adaboost演算法。knn演算法 基於距離進行分類,選取前k個最相似的樣本,看這...

機器學習演算法總結(二)

svm上 這個演算法應該是機器學習這門課裡最重要的部分了。首先是svm的思想 找到超平面,將兩類中距離最近的點分的越開越好 直至二者相等 然後是函式間隔和幾何間隔的定義,二者之間的區別。接著是超平面模型的建立,看看它是如何將問題轉化為凸優化問題的。svm第乙個難點 拉格朗日對偶。由kkt條件可知,起...

機器學習常見演算法概述 整合學習總結

整合學習 多個弱分類器組合成乙個強分類器。1.adaboost 通過改變訓練樣本的權重 初始時權重相同,每次將前乙個分類器分類錯誤的那些樣本的權重增加,表現在分類誤差率的計算上 反覆訓練多個弱分類器,最後根據這些弱分類器的分類誤差率 權重 將他們線性組合到一起。其中分類誤差率越大權重越小。等價於損失...