監督學習研究的是屬性x和輸出值y之間的關係。
無監督研究的是屬性和屬性之間的關係,這時候沒有輸出值或者標籤值y。
我們學得的模型,它作用於新樣本的表現能力,稱為泛化能力。
模型對訓練集適配得很好,模擬得很好,在測試集上卻表現很差,叫作過擬合。這時候方差會比較大。
過擬合是無法完全避免的,只能盡可能去減少過擬合的風險。
模型對訓練集都模擬不好,就叫欠擬合。這時候偏差會很大。
解決方法:增加訓練集樣本數、增加訓練次數,在決策樹中,我們可以增加訓練的分支數。
方差、偏差 各自解決辦法
將樣本劃分成k個大小相似的互斥子集。(盡量保證每個子集與總體分布一致)
每次使用k-1個子集訓練模型,剩下的子集作為測試集。如此進行k次訓練、測試,最終返回k次測試結果的均值。
線性回歸是一種通過構建線性模型來進行**的回歸分析。它的基本形式是屬性的線性組合函式:
tips:歐氏距離:
也叫歐幾里得距離,兩點之間的真實距離。(對應座標之差的平方和)
也就是優化的目標是誰。可以直接是損失函式,也可以是損失函式+正則項。
一種迭代方法,不斷更新引數,找到使得目標函式最小的最優引數。
求解導數為0的點。
牛頓法在每次迭代時需要計算出hessian矩陣,然後求解乙個以該矩陣為係數矩陣的線性方程組。
mese、rmse、r方 等指標。
sklearn.linear_model.linearregression
sklearn官方do 初級演算法梳理 任務1 線性回歸演算法梳理
有監督 無監督 泛化能力 過擬合欠擬合 方差和偏差以及各自解決辦法 交叉驗證 線性回歸的原理 線性回歸損失函式 代價函式 目標函式 優化方法 梯度下降法 牛頓法 擬牛頓法等 線性回歸的評估指標 sklearn引數詳解 機器學習任務包括兩類,有監督的和無監督的,有監督的主要包括分類與回歸,非監督的主要...
線性回歸演算法學習
線性回歸 linear regression 是利用被陳偉線性回歸方程的最小平方函式對乙個或多個自變數和應變數之間關係進行建模的一種回歸分析。這種函式是乙個或多個稱為回歸係數的模型引數的線性組合。只有乙個自變數的情況稱為一元回歸,大於乙個自變數情況的叫做多元回歸。以下就以一元線性回歸為例,簡要說明何...
任務1 線性回歸演算法梳理
1 機器學習的一些概念 1 有監督 訓練資料有標記資訊 2 無監督 訓練資料無標記資訊 3 泛化能力 演算法適用於新樣本的能力 4 過擬合 訓練樣本學得太好,泛化能力不足,通常表現為在訓練集上具有高方差和低偏差 5 欠擬合 訓練樣本學得不好,不是過於密切地跟蹤訓練資料,而是乙個不合適的模型忽略了訓練...