機器學習三要素:演算法 資料 模型
三者關係--利用演算法通過在資料上訓練得到模型,模型可以用來在新的資料上**結果。
資料-分為有標註/無標註資料,需要轉化為向量空間模型vsm,供計算機使用
模型-**值y'和實際值y誤差越小模型越好。描述y'和y之間差別的函式叫損失函式(loss function);描述整體上差別的函式叫代價函式(cost function)。
- 對分類而言,模型驗證指標有精準率(precision)和召回率(recall),以及綜合了這兩個指標的f1score。例:驗證a類的準確率,tp-實際和**都為a;fp-實際非a**為a;fn-實際是a**非a。那麼precision=tp/(tp+fp)所有**為a中的正確率;recall=tp/(tp+fn)所有實際為a中**正確的比例;f1score = 2*(precision * recall)/(precision + recall)
- 從擬合角度,分為欠擬合和過擬合。欠擬合是在訓練樣本裡選取的特徵值過少,在訓練集上準確率偏低;過擬合是特徵選取不當/過多,模型太複雜,訓練集上準確率高,測試集上準確率低。
訓練-分為有監督/無監督學習,有監督是有訓練樣本,已知部分資料及其對應分類;無監督是沒有任何訓練樣本直接對資料進行建模,比如聚類。
演算法-用來尋找模型引數,使代價函式值最小。比如梯度下降法。
問題域x和y滿足線性關係-包含乙個或多個自變數的一階多項式。
模型函式
y=mx+b(一維特徵)
我們需要利用已有訓練資料來求出常數a和b的值
目標函式
每乙個機器學習模型都有乙個目標函式,學習的目標,就是最小化代價函式。線性回歸即找到每個點和直線距離最小的那條線。
線性!=直線
訓練資料的特徵是n維,線性模型是在n+1維空間中的線,面,體。只有特徵是一維的時候,線性回歸模型才是一條直線。
線性模型也可以擬合非線性關係。
令x^2=x2 x=x1, f(x1,x2)=a+b1x+b2x^2=a+b1x1+b2x2
訓練演算法
學習的目標是最小化代價函式,當目標函式為凸函式的時候(常見模型目標函式均為凸函式),只需要求解凸函式的最小值。最常用的求解方法及梯度下降法。
以一定的步長α沿曲線切線方向移動,一直到最小點。
起點:步長:由外界指定,演算法不能學習出來。這樣的引數稱為超引數。選取步長大雖然快但是容易錯過最小值;步長小則會加大計算量。為了吸收兩者優點,我們可以前期選擇大步長,當斜率緩和後改用小步長。
起點:如果目標函式有多個極小值,選取起始位置不佳,則容易進入區域性最小值。這種情況下可以嘗試幾個不同的起點,甚至加大步長跨出區域性最小值。
終點:訓練程式可以是以人工指定迭代次數來確定退出條件,也可以以模型結果與真實結果的整體差值小於某乙個閾值為退出條件。
機器學習筆記1 線性回歸
資料探勘 人工智慧等領域中存在兩個 分類和回歸 先說回歸 一些簡單的數學題,求解問題往往通過求解未知數,也就是 通過給定的自變數和函式,通過函式求解得到未知數。而機器學習是,通過給定的自變數和函式的解,去求解函式。即求解function x y。通過樣本中大量的特徵 x 和目標變數 y 求得這個函式...
機器學習(1) 線性回歸
無正則的線性回歸模型 l1正則的lasso模型 l2正則的ridge regression 嶺回歸 模型 開方均方誤差 rooted mean squared error,rmse 平均絕對誤差 mean absolute error,mae 1.生成學習器例項 lr linearregressio...
機器學習 1 線性回歸
2 linear regression with multiple variables multivariate linear regression 多變數線性回歸 3 gradient descent in practice 3.2 learning rate 3.3 features and p...