1. 有監督學習:訓練資料有標記
2.無監督學習:訓練資料沒有標記
3.泛化能力:學得模型適用於新樣本的能力
4.過擬合欠擬合(方差和偏差以及各自解決辦法):
(1)過擬合:當學習器把訓練樣本學得太好時,可能已經把訓練樣本自身的一些特點當作了所有潛在樣本都會有的一般性質,這樣就會導致泛化效能下降。
解決方法:重新清洗資料、增大資料的訓練量、採用正則化方法。
(2)欠擬合:訓練樣本的一般性質尚未學好。
解決方法:新增其他特徵項、新增多項式特徵、減少正則化引數。
5.交叉驗證:將原始資料進行分組,一部分做為訓練集,另一部分做為驗證集,首先用訓練集對分類器進行訓練,再利用驗證集來測試訓練得到的模型,以此來做為評價分類器的效能指標。
線性回歸假設特徵和結果滿足線性關係。其實線性關係的表達能力非常強大,每個特徵對結果的影響強弱可以由前面的引數體現,而且每個特徵變數可以首先對映到乙個函式,然後再參與線性計算。這樣就可以表達特徵與結果之間的非線性關係。
1.梯度下降法:
(1) 先確定向下一步的步伐大小,我們稱為學習率α;
(2) 任意給定乙個初始值:θ;
(3) 確定乙個向下的方向,並向下走預先規定的步伐,並更新θ值;
(4) 當下降的高度小於某個定義的值ε,則停止下降。
2.牛頓法:
(1) 隨機選取起始點x0
(2) 計算目標函式f(x)在該點xk的一階導數和海森矩陣;
(3) 依據迭代公式xk+1=xk−hk
-1f』k更新x值
(4) 如果e(f(xk+1)−f(xk))
1.mse:均方誤差是指引數估計值與引數真值之差平方的期望值。
2.rmse:均方根誤差是均方誤差的算術平方根。
3.mae:平均絕對誤差是絕對誤差的平均值。
fit_intercept:布林型別,可選引數,預設為true;設定模型是否計算截距,false表示不使用截距。
normalize:布林型別,可選引數,預設值為false;是否對資料進行歸一化處理。
copy_x:布林型別,可選引數,預設值為true;如果為true,x將被複製;否則被重寫。
n_jobs:int型別,可選引數,預設值為1;如果設為1,將啟動所有cpu。
方法:
decision_function(x) :對訓練資料x進行**。
fit(x, y[, n_jobs]):對訓練集x, y進行訓練。是對scipy.linalg.lstsq的封裝
get_params([deep]):得到該估計器(estimator)的引數。
predict(x):使用訓練得到的估計器對輸入為x的集合進行**(x可以是測試集,也可以是需要**的資料)。
score(x, y[,]sample_weight):返回對於以x為samples,以y為target的**效果評分。
set_params(**params):設定估計器的引數
decision_function(x) 和predict(x):都是利用預估器對訓練資料x進行**,其中decision_function(x)包含了對輸入資料的型別檢查,以及當前物件是否存在coef_屬性的檢查,是一種「安全的」方法,而predict是對decision_function的呼叫。
score(x, y[,]sample_weight):定義為(1-u/v),其中u=((y_true - y_pred)**2).sum(),而v=((y_true-y_true.mean())**2).mean()
最好的得分為1.0,一般的得分都比1.0低,得分越低代表結果越差。
其中sample_weight為(samples_n,)形狀的向量,可以指定對於某些sample的權值,如果覺得某些資料比較重要,可以將其的權值設定的大一些。
Task1 線性回歸演算法梳理
有監督 是乙個機器學習中的方法,可以由訓練資料中學到或建立乙個模式 learning model 並依此模式推測新的例項。訓練資料是由輸入物件 通常是向量 和預期輸出所組成。函式的輸出可以是乙個連續的值 稱為回歸分析 或是 乙個分類標籤 稱作分類 乙個監督式學習者的任務在觀察完一些訓練範例 輸入和預...
Task 1 線性回歸演算法梳理(學習整理筆記)
1 概念 機器學習中比較活躍的四大應用領域 資料探勘 計算機視覺 自然語言處理 機械人決策 機器學習的兩大基本問題 回歸問題 分類問題 機器學習模型 f features label 樣本資料集 2 有監督學習 supervised learning 把訓練和分類的結果一併丟給計算機分析。計算機進行...
TASK1 隨機森林演算法梳理
整合學習是訓練多個個體學習器 常為弱分類器 根據一定的結合策略形成乙個強監督模型,其思想是即便某乙個弱分類器得到了錯誤的 其他的弱分類器也可以將錯誤糾正回來。整合學習可用於分類問題整合,回歸問題整合,特徵選取整合,異常點檢測整合等等。根據個體學習器的生成方式分為 個體學習器間存在強依賴關係 必須序列...