常見機器學習模型之間的關係

2021-08-11 14:33:45 字數 1626 閱讀 8901

1.中文解釋

線性回歸。

2.模型思想

對於能夠以f(xi) = wxi + b表達的線性模型,線性回歸就是試圖學得恰當得向量w和標量b,使得f(xi) ≈ yi,其中yi是真實輸出。那只需要設計乙個衡量f(xi)與yi的差異函式e(xi,yi,w,b),機器學習中稱為代價函式或損失函式,然後使該對函式求得最小值,對應的w和b便是最終擬合的引數,這個過程稱為線性回歸模型的引數估計。

3.loss函式

通常使用均方誤差來計算代價,幾何意義對應歐氏距離,結合上述的引數估計過程,可表達如下式:

4.訓練演算法

對於loss函式分別對w和b求導,再令導數為0,求得w和b最優解的閉式解。

1.中文解釋

其實應該叫logit回歸比較貼近其模型思想,也就是對數機率回歸,雖然名字是回歸但實際是分類方法。

2.衍生關係

基於線性回歸模型的**結果來加乙個啟用函式(sigmoid)來做分類。

3.模型思想:

基於前面的線性回歸的**值f(xi),這是乙個實數,對於分類任務來說,需要對連續輸出轉變成0/1值,理想情況下可以使用單位階躍函式,如下式:

其中z =  wx + b,但實際應用中並沒有採用單位階躍函式,因為它不連續,不可微,因此常用對數機率函式(屬於sigmoid的一種)來替代它,如下式:

式子(2)和式子(3)的函式影象如下圖:

1.中文解釋

軟性最大化回歸。

2.衍生關係:

將logistics回歸的啟用函式從sigmoid換成softmax函式,也即輸出由0-1整流值變成了歸一化後的置信度。

3.模型思想:

求出各個類的概率,並以概率值最大的類作為**值,使用下式來計算類概率:

其中x是第i個類softmax的輸入值(乙個標量

),yi(i=1,2,3....)分別代表每個類的概率值,取最大的yi所屬的類作為**值。

這個公式其實可以簡化為:

目的就是歸一化,使每個類的計算結果限制在(0,1)內 。

舉例說明,假設做數字分類任務,則模型輸出有10個(數字0-9的概率),假設影象尺寸為10*10,則輸入x就是100x1的向量,10個數字(輸出)對應10組權重,每組權重都是100x1的向量(與x向量每個元素逐一對應),則權重可以用10x100的矩陣來表示,由w,x,b的線性組合可以運算到10x1的feature向量,如下式,softmax函式需要對feature向量計算出數字的概率向量y10,1,取其中最大的元素對應的類作為輸出。

4.訓練演算法

對cross_entropy進行隨機梯度下降的優化。

1.周志華. 機器學習 : = machine learning[m]. 清華大學出版社, 2016.

2.李航. 統計學習 清華大學出版社.2012

3.黃文堅,唐源,tensorflow實戰.電子工業出版社,2017

翻譯中...

常見機器學習模型總結

1 分類 線性分類器 如lr 支援向量機 svm 樸素貝葉斯 nb k近鄰 knn 決策樹 dt 整合模型 rf gdbt等 2 回歸 線性回歸 支援向量機 svm k近鄰 knn 回歸樹 dt 整合模型 extratrees rf gdbt 資料聚類 k means 資料降維 pca 等等.1 各...

常見機器學習演算法總結

機器學習演算法主要分為以下2種 有監督與無監督。再細分可分為四種 分類,聚類,回歸,關聯四大類演算法。分類與回歸屬於有監督學習。聚類與關聯屬於無監督學習。分類演算法主要有knn,決策樹,樸素貝葉斯,svm,邏輯回歸,adaboost演算法。knn演算法 基於距離進行分類,選取前k個最相似的樣本,看這...

常見機器學習演算法優缺點

1 線性模型 形式簡單 易於建模 很好的可解釋性 2 邏輯回歸 無需事先假設資料分布 可得到近似概率 對率函式任意階可導的凸函式,許多數值優化演算法都可直接用於求取最優解 3 線性判別分析 lda 當兩類資料同先驗 滿足高斯分布且協方差相等時,lda可達到最優分類 4 boosting 代表adab...