一.機器學習的一些概念
1.有監督學習:所有訓練及測試資料都有標籤
2.無監督學習:訓練及測試資料都沒有標籤
3.泛化能力:模型在訓練資料之外的其他資料集上的表現能力,即演算法對新鮮樣本的適應能力
4.過擬合:訓練出來的模型在訓練集上表現很好,但是在測試集上表現較差
產生原因:
(1)資料有雜訊
(2)訓練資料不足
(3)訓練過度,模型複雜度高
解決辦法:
(1)清洗資料
(2)獲取更多資料:1.從資料源頭獲取更多資料;2.根據當前資料集估計資料分布引數,使用該分布產生更多資料;3.資料增強
(3)使用合適的模型:1.選用多個模型求平均;2.限制權值,即正則化,在進行目標函式或代價函式優化時,在目標函式或代價函式後面加上乙個正則項;3.增加雜訊
5.欠擬合:因為模型不夠複雜而無法捕捉資料基本關係,導致模型錯誤的表示資料。
解決辦法:
1)新增其他特徵項
2)新增多項式特徵
3)減少正則化引數
6.方差:模型每一次輸出結果與模型輸出期望之間的誤差,即模型的穩定性。指樣本上訓練出的模型在測試集上的表現。
解決方法:簡化模型,減少模型的引數
7.偏差:模型在樣本上的輸出與真實值之間的誤差,即模型本身的精準度,即演算法本身的擬合能力
解決方法:複雜化模型,增加模型引數
8.交叉驗證:在已有的資料集中,拿出大部分資料進行訓練建模,小部分資料用以對模型進行測試,並求出這部分資料的**誤差,記錄這些資料的平方加和。
二.線性回回歸的原理
現在我們有一堆資料 (x, y) ,x 是訓練資料集,y 是想要知道的結果,我們可以擬合一條曲線來表示這組資料,即
矩陣表示為
若訓練資料集為n維,則為
三、線性回歸損失函式、代價函式、目標函式
1.損失函式:一般表示為 l(y,f(x)) ,用以衡量真實值 y 和**值 f(x) 之間不一致的程度
2.代價函式:**值(hθ)與實際值(y)的偏離程度
3.目標函式:優化的目標。可以是「損失函式」或者「損失函式+正則項」
四.優化方法
1.梯度下降法:
2.牛頓法:
3.擬牛頓法:
**:五.線性回歸的評估指標
d. r方
六.sklearn引數詳解
linearregression(fit_intercept=true,normalize=false,copy_x=true,n_jobs=1)
fit_intercept:是否有截據,如果沒有則直線過原點。
normalize:是否將資料歸一化。
copy_x:預設為true,當為true時,x會被copied,否則x將會被覆寫。
n_jobs:預設值為1。計算時使用的核數。
參照:參考:
線性回歸損失函式
線性回歸演算法梳理
機器學習的一些概念 有監督 有目標值y 無監督 無目標值y 泛化能力 在 集上的 能力 過擬合欠擬合 方差和偏差以及各自解決辦法 測試集 能力不好叫欠擬合,在測試集上ok,訓練集ng 方差能解決過你和問題,偏差能解決欠擬合問題 交叉驗證 將樣本分為n分,按照一定的劃分方式劃分訓練集和測試集,互相交叉...
線性回歸演算法梳理
有監督 資料做過標記 無監督 對原始資料進行處理,未做標記 泛化能力 由訓練資料建立的模型對同類問題的解決能力 過擬合 模型過於複雜導致解決問題能力差 欠擬合 模型過於簡單導致擬合資料的能力差 方差和偏差以及各自解決辦法 交叉驗證 當資料比較少時,將資料分成n份,取n 1份做訓練集,1份做驗證集,改...
線性回歸演算法梳理
監督學習 資料集中的每個樣本有相應的標籤,根據這些樣本做出 無監督學習 資料集中沒有標籤。無監督學習的任務是從給定的資料集中,找出可能具有的結構。泛化能力 指乙個機器學習演算法對於沒有見過的樣本的識別能力。過擬合欠擬合 方差和偏差以及各自解決辦法 欠擬合 模型沒有很好地捕捉到資料特徵,不能夠很好地擬...