1、機器學習的一些概念
1)有監督:訓練資料有標記資訊
2)無監督:訓練資料無標記資訊
3)泛化能力:演算法適用於新樣本的能力
4)過擬合:訓練樣本學得太好,泛化能力不足,通常表現為在訓練集上具有高方差和低偏差
5)欠擬合:訓練樣本學得不好,不是過於密切地跟蹤訓練資料,而是乙個不合適的模型忽略了訓練資料的教訓,並且無法學習輸入和輸出之間的潛在關係,通常表現為在訓練集上具有低方差和高偏差
6)交叉驗證:將原始資料進行分組,一部分做為訓練集,另一部分做為驗證集,首先用訓練集對分類器進行訓練,再利用驗證集來測試訓練得到的模型,以此來做為評價分類器的效能指標。
2、線性回歸的原理
線性回歸畫出的圖形未必是一條直線,只有乙個變數時模型是平面中的一條直線;有兩個變數的時候,模型是空間中的乙個平面;有更多變數時,模型將是更高維的。
通常公式為: h(x)=w1x1+ w2x2+ w3x3+…+ wnxn+b, 其中xi為特徵變數,wi為權重,通過權重可看出特徵對整體**起到的作用大小。為了使線性回歸方程擬合資料效果更好,需引入代價函式, 通過計算代價函式最小值可得出使所有點到直線的距離之和最小的wi和b的值:
根據測試資料,訓練出最小代價函式下的wi和b值,從而使用已知的線性回歸模型對測試資料**其輸出結果,人工檢驗其準確率、召回率、精確率等,判斷模型是過擬合或欠擬合,再決定採取何種策略優化模型。
3、線性回歸的損失函式/代價函式/目標函式
1)損失函式:衡量乙個樣本模型**出來的值h(x)與真實值y之間的差異的函式c
c=(y-h(x))2
2)代價函式:能夠衡量模型**出來的值h(x)與真實值y之間的差異的函式c,如果有多個樣本,則可以將所有代價函式的取值求均值,記做j,
其特徵是:
• 對於每種演算法來說,代價函式不是唯一的;
• 代價函式是引數w,b的函式;
• 總的代價函式j可以用來評價模型的好壞,代價函式越**明模型和引數越符合訓練樣本(x, y);
• j是乙個標量
當我們確定了模型h,後面做的所有事情就是訓練模型的引數w,b。由於代價函式是用來衡量模型好壞的,我們的目標當然是得到最好的模型(也就是最符合訓練樣本(x, y)的模型)。因此訓練引數的過程就是不斷改變w,b,從而得到更小的j的過程。理想情況下,當我們取到代價函式j的最小值時,就得到了最優的引數w,b.
3)目標函式:損失函式+正則化,並不是損失函式最小線性回歸函式就最好,為了防止過擬合通常會構建乙個函式f,當minj(w)+f時,對應的w,b值為線性回歸函式最優引數。
4、線性回歸的優化方法(梯度下降法)
梯度下降法通常用於求損失函式最優解時,即利用沿著梯度下降最快的方向求偏導數,得到損失函式的全域性最小值時的引數w,b。
1)首先對w賦值,這個值可以是隨機的,也可以是乙個零向量;
2)改變w的值,使得j(w)按梯度下降的方向進行減少;
3)當j(w)下降到無法下降時為止,即j(w)對w的導數為0時,比較j(w)的值是否有變化。
關於下降的速度,即學習率,需要手動設定。
初級演算法梳理 任務1 線性回歸演算法梳理
有監督 無監督 泛化能力 過擬合欠擬合 方差和偏差以及各自解決辦法 交叉驗證 線性回歸的原理 線性回歸損失函式 代價函式 目標函式 優化方法 梯度下降法 牛頓法 擬牛頓法等 線性回歸的評估指標 sklearn引數詳解 機器學習任務包括兩類,有監督的和無監督的,有監督的主要包括分類與回歸,非監督的主要...
初級演算法學習小組 任務1 線性回歸演算法梳理
監督學習研究的是屬性x和輸出值y之間的關係。無監督研究的是屬性和屬性之間的關係,這時候沒有輸出值或者標籤值y。我們學得的模型,它作用於新樣本的表現能力,稱為泛化能力。模型對訓練集適配得很好,模擬得很好,在測試集上卻表現很差,叫作過擬合。這時候方差會比較大。過擬合是無法完全避免的,只能盡可能去減少過擬...
線性回歸演算法梳理
機器學習的一些概念 有監督 有目標值y 無監督 無目標值y 泛化能力 在 集上的 能力 過擬合欠擬合 方差和偏差以及各自解決辦法 測試集 能力不好叫欠擬合,在測試集上ok,訓練集ng 方差能解決過你和問題,偏差能解決欠擬合問題 交叉驗證 將樣本分為n分,按照一定的劃分方式劃分訓練集和測試集,互相交叉...