機器學習演算法總結(二)

2022-03-17 10:42:23 字數 877 閱讀 4690

svm上:這個演算法應該是機器學習這門課裡最重要的部分了。

首先是svm的思想:找到超平面,將兩類中距離最近的點分的越開越好(直至二者相等)。

然後是函式間隔和幾何間隔的定義,二者之間的區別。

接著是超平面模型的建立,看看它是如何將問題轉化為凸優化問題的。

svm第乙個難點:拉格朗日對偶。由kkt條件可知,起作用的約束都在邊界上,這個會用來解釋支援向量。

由kkt條件知,在svm模型中,只有函式間隔為1的點才是支援向量。

通過對偶解出w,b。對於新出現的樣本,只需要和支援向量作內積就可以將其分類。

svm下:有時候低維不能將樣分很好的分類,可以用高維解決,為此引入了核函式,將低維對映到高維。

用線性分類方法求解非線性問題分兩步,首先使用乙個變換將原空間的資料對映到新的空間,然後在新空間裡用線線分類學習方法

從訓練資料中學習分類模型。

如果乙個核函式是半正定的,則它是有效的。

為了解決離群點問題,引入了罰項。新的模型不僅要使間隔盡量小,還要使誤分類點的個數盡量少。

em:       第乙個難點就是jensen不等式,不等式取等號的條件。em演算法實際上就兩個過程:確定下界,優化下界。e步是估計隱含類別y的期望值,m步調整其他引數

使得在給定類別y的情況下,極大似然估計p(x,y)能夠達到極大值。然後在其他引數確定的條件下,重新估計y,周而復始,直至收斂。

k-means:用於事先不知道類別。思想很簡單:在樣本中選取k個質心,分別求樣本到各個質心的距離從而確定樣本的類別。在新的類別中重新求質心,再對每個樣本

重新分類,一直迭代直至收斂。

em 與 k-means:   k-means中在確定k個質心的過程就相當於e步,質心確定後,重新計算距離就相當於m步,通過調整使距離最小,也就是p(x,y)最大

機器學習常見演算法總結 二

adaboost演算法通俗地講,就是在乙個資料集上的隨機資料使用乙個分類訓練多次,每次對分類正確的資料賦權值較小,同時增大分類錯誤的資料的權重,如此反覆迭代,直到達到所需的要求。adaboost演算法步驟如下 svm是基於結構風險 經驗風險和置信風險 最小化的機器學習演算法,支援向量機方法是建立在統...

機器學習演算法總結

機器學習 machine learning,ml 是一門多領域交叉學科,涉及概率論 統計學 逼近論 凸分析 演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。嚴格的定義 機器學習是一門研究機器獲取新知識和新技能...

機器學習總結(二)

lwlr用 核 來對附近的點賦予權重。核的型別可以自由選擇,最常用的核就是高斯核,高斯核對應的權重如下 這樣就構建了乙個只含對角元素的權重矩陣,並且可以看出點x與x i 越近,w i,i 就越大。上述公式的k是使用者指定的,它決定了對附近的點賦予多大的權重。權重關係如下圖 摘自機器學習實戰p142 ...