本章內容
我們介紹幾個最優化演算法,並利用它們訓練出乙個非線性函式用於分類。
回歸:假設我們有一些資料點,我們用一條直線對這些點進行擬合,這個擬合過程就稱作回歸。
利用logistic回歸進行分類的主要思想是:根據現有資料對分類邊界線建立回歸公式,以此進行分類
logistic回歸的一般過程
(1) 收集資料:採用任意方法收集資料。
(2) 準備資料:由於需要進行距離計算,因此要求資料型別為數值型。另外,結構化資料格式則最佳。
(3) 分析資料:採用任意方法對資料進行分析
(4) 訓練演算法:大部分時間將用於訓練,訓練的目的是為了找到最佳的分類回歸係數
(5) 測試演算法:一旦訓練步驟完成,分類將會很快
(6) 使用演算法:首先,我們需要輸入一些資料,並將其轉換成對應的結構化數值;接著,基於訓練好的回歸係數就可以對這些數值進行簡單的回歸計算,判定它們屬於哪個類別;在這之後,我們就可以在輸出的類別上做一些其他分析工作
logistic回歸
優點:計算代價不高,易於理解和實現
缺點:容易欠擬合,分類精度可能不高
適用資料型別:數值型和標稱型資料
我們想要的函式是,能接受所有的輸入然後**出類別。sigmoid函式具有跳躍性質
為了實現logistic回歸分類器,我們可以在每個特徵上都乘以乙個回歸係數,然後把所有的結果值相加,將這個總和代入sigmoid函式中,進而得到乙個範圍在0-1之間的數值。
sigmoid函式的輸入記為z,由下面公式得出:
如果採用向量的寫法,上述公式可以寫成
全部加起來即得到z值。其中的向量x是分類器的輸入資料,向量w也就是我們要找到的最佳引數
(係數),從而使得分類器盡可能地精確。為了尋找該最佳引數,需要用到最優化理論的一些知識。
下面首先介紹梯度上公升的最優化方法,我們將學習到如何使用該方法求得資料集的最佳
引數。接下來,展示如何繪製梯度上公升法產生的決策邊界圖,該圖能將梯度上公升法的分類效
果視覺化地呈現出來。最後我們將學習隨機梯度上公升演算法,以及如何對其進行修改以獲得更
好的結果
機器學習實戰 Logistic回歸
11 e z 1 1 e zz w 0x0 w1x1 w2x 2 wn xxz w 0x0 w1x1 w2x 2 wn xx z wt x z w tx 在每個特徵上都乘以乙個回歸係數,然後把所有結果值相加,將這個總和代入sigmoid函式中,進而得到乙個範圍在0 1直接的數值。1類 大於0.5 0...
機器學習 機器學習實戰 Logistic回歸
我們在每個特徵上都乘以乙個回歸係數,然後把所有的結果值相加,將這個總和代入sigmoid函式中,進而得到乙個範圍在0 1之間的數值。任何大於0.5的資料被分入1類,小於0.5的被歸入0類。所以此種回歸也可以被看成是一種概率估計。收集資料 任意 準備資料 由於需要進行距離計算,因此要求資料型別為數值型...
機器學習實戰札記 Logistic回歸
這段時間裡,我一直在嘗試將open nsfw加入到手機,給手機瀏覽器增加色情檢測功能,這個分階段進行,在前面的幾篇文章中,都談到了這方面的嘗試 我的第乙個caffe c 程式 我的第乙個caffe android程式 利用人工智慧檢測色情 然而,當我將open nsfw移植到手機上執行時 原始碼已上...