有監督:是乙個機器學習中的方法,可以由訓練資料中學到或建立乙個模式( learning model),並依此模式推測新的例項。訓練資料是由輸入物件(通常是向量)和預期輸出所組成。函式的輸出可以是乙個連續的值(稱為回歸分析),或是**乙個分類標籤(稱作分類)。乙個監督式學習者的任務在觀察完一些訓練範例(輸入和預期輸出)後,去**這個函式對任何可能出現的輸入的值的輸出。監督式學習有兩種形態的模型。最一般的,監督式學習產生乙個全域模型,會將輸入物件對應到預期輸出。而另一種,則是將這種對應實作在乙個區域模型。(如案例推論及最近鄰居法)。為了解決乙個給定的監督式學習的問題(手寫辨識),必須考慮以下步驟:
1)決定訓練資料的範例的形態。在做其它事前,工程師應決定要使用哪種資料為範例。譬如,可能是乙個手寫字元,或一整個手寫的詞彙,或一行手寫文字。
2)蒐集訓練資料。這資料須要具有真實世界的特徵。所以,可以由人類專家或(機器或感測器的)測量中得到輸入物件和其相對應輸出。
3)決定學習函式的輸入特徵的表示法。學習函式的準確度與輸入的物件如何表示是有很大的關聯度。傳統上,輸入的物件會被轉成乙個特徵向量,包含了許多關於描述物件的特徵。因為維數災難的關係,特徵的個數不宜太多,但也要足夠大,才能準確的**輸出。
4)決定要學習的函式和其對應的學習演算法所使用的資料結構。譬如,工程師可能選擇人工神經網路和決策樹。
5)完成設計。工程師接著在蒐集到的資料上跑學習演算法。可以借由將資料跑在資料的子集(稱為驗證集)或交叉驗證(cross-validation)上來調整學習演算法的引數。引數調整後,演算法可以執行在不同於訓練集的測試集上。
目前最廣泛被使用的分類器有人工神經網路、支援向量機、最近鄰居法、高斯混合模型、樸素貝葉斯方法、決策樹和徑向基函式分類。
無監督:是人工智慧網路的一種演算法(algorithm),其目的是去對原始資料進行分類,以便了解資料內部結構。有別於監督式學習網路,無監督式學習網路在學習時並不知道其分類結果是否正確,亦即沒有受到監督式增強(告訴它何種學習是正確的)。其特點是僅對此種網路提供輸入範例,而它會自動從這些範例中找出其潛在類別規則。當學習完畢並經測試後,也可以將之應用到新的案例上。無監督學習裡典型的例子就是聚類了。
泛化能力:是指乙個機器學習演算法對於沒有見過的樣本的識別能力。我們也叫做舉一反三的能力,或者叫做學以致用的能力。我們訓練乙個機器學習演算法也是如此,通過感性的告訴機器乙個加上乙個等於兩個,之後演算法通過自己的學習,推廣計算多位數的加減法,多位數的加減法是無窮多個的,如果機器在不斷的測試中都能夠算對,那麼我們認為機器已經總結出了加法的內部規律並且能夠學以致用。
不收斂一般是形容一些基於梯度下降演算法的模型,收斂是指這個演算法有能力找到區域性的或者全域性的最小值,(比如找到使得**的標籤和真實的標籤最相近的值,也就是二者距離的最小值),從而得到乙個問題的最優解。如果說乙個機器學習演算法的效果和瞎矇的差不多那麼基本就可以說這個演算法沒有收斂,也就是根本沒有去學習。
過擬合欠擬合(方差和偏差以及各自解決辦法):
1)過擬合通常可以理解為,模型的複雜度要高於實際的問題,所以就會導致模型死記硬背的記住,而沒有理解背後的規律。就比如說人腦要比唐詩複雜得多,即使不理解內容,我們也能背下來,但是理解了內容和寫法對於我們理解記憶其他唐詩有好處,如果死記硬背那麼就僅僅記住了而已。
2)欠擬合(under-fitting)是和過擬合相對的現象,可以說是模型的複雜度較低,沒法很好的學習到資料背後的規律。就好像克卜勒在總結天體執行規律之前,他的老師第谷記錄了很多的執行資料,但是都沒法用資料去解釋天體執行的規律並**,這就是在天體執行資料上,人們一直處於欠擬合的狀態,只知道記錄過的過去是這樣執行的,但是不知道道理是什麼。
交叉驗證:將原始資料分成k組(一般是均分),將每個子集資料分別做一次驗證集,其餘的k-1組子集資料作為訓練集,這樣會得到k個模型,用這k個模型最終的驗證集的分類準確率的平均數作為此k-cv下分類器的效能指標.k一般大於等於2,實際操作時一般從3開始取,只有在原始資料集合資料量小的時候才會嘗試取2.k-cv可以有效的避免過學習以及欠學習狀態的發生,最後得到的結果也比較具有說服性。
在現實生活中普遍存在著變數之間的關係,有確定的和非確定的。確定關係指的是變數之間可以使用函式關係式表示,還有一種是屬於非確定的(相關),所以我們先明確一下目標:線性回歸到底在幹什麼?因為我們對於乙個資料集,不明確其之間的關係,所以需要構造乙個函式,進行擬合資料,擬合後便可以實現取任意點進行值的**。所以這裡我們採用線性的函式進行擬合,和求解這個線性函式的引數的過程,以及將引數最優化就是線性回歸演算法在幹的事情。
函式模型:
損失函式說白了,就是求每個點到我們求解的這條直線的距離差的總和。因為不是所有點都在直線上,所有你要衡量這條直線是不是最好的擬合函式,你需要對每個點,求到這條直線的距離,然後將所有的距離相加,得到的距離總和,使得總和最小的直線就是最好的擬合直線。而我們損失函式所用的是平方差誤差求和。 現在我們需要根據給定的x求解w的值,這裡採用最小二乘法。因此損失代價函式為:
梯度下降法是按下面的流程進行的:
1)首先對θ賦值,這個值可以是隨機的,也可以讓θ是乙個全零的向量。
2)改變θ的值,使得j(θ)按梯度下降的方向進行減少。
牛頓法是一種在實數域和複數域上近似求解方程的方法。方法使用函式f (x)的泰勒級數的前面幾項來尋找方程f (x) = 0的根。牛頓法最大的特點就在於它的收斂速度很快。其迭代公式為:
擬牛頓法的本質思想是改善牛頓法每次需要求解複雜的hessian矩陣的逆矩陣的缺陷,它使用正定矩陣來近似hessian矩陣的逆,從而簡化了運算的複雜度。擬牛頓法和最速下降法一樣只要求每一步迭代時知道目標函式的梯度。通過測量梯度的變化,構造乙個目標函式的模型使之足以產生超線性收斂性。這類方法大大優於最速下降法,尤其對於困難的問題。另外,因為擬牛頓法不需要二階導數的資訊,所以有時比牛頓法更為有效。如今,優化軟體中包含了大量的擬牛頓演算法用來解決無約束,約束,和大規模的優化問題。
r-squared 和 adjusted r-squared 都可以用來評估線性回歸模型。
f statistics 是指在零假設成立的情況下,符合f分布的統計量,多用於計量統計學中。
rmse 指的是均方根誤差:
mse 指的是均方誤差:
mae 指的是評價絕對誤差:
fit_intercept:是否有截據,如果沒有則直線過原點。
normalize:是否將資料歸一化。
copy_x:預設為true,當為true時,x會被copied,否則x將會被覆寫。(這一引數的具體作用沒明白,求大神指教了)
n_jobs:預設值為1。計算時使用的核數。
Task1 線性回歸演算法梳理
1.有監督學習 訓練資料有標記 2.無監督學習 訓練資料沒有標記 3.泛化能力 學得模型適用於新樣本的能力 4.過擬合欠擬合 方差和偏差以及各自解決辦法 1 過擬合 當學習器把訓練樣本學得太好時,可能已經把訓練樣本自身的一些特點當作了所有潛在樣本都會有的一般性質,這樣就會導致泛化效能下降。解決方法 ...
Task 1 線性回歸演算法梳理(學習整理筆記)
1 概念 機器學習中比較活躍的四大應用領域 資料探勘 計算機視覺 自然語言處理 機械人決策 機器學習的兩大基本問題 回歸問題 分類問題 機器學習模型 f features label 樣本資料集 2 有監督學習 supervised learning 把訓練和分類的結果一併丟給計算機分析。計算機進行...
TASK1 隨機森林演算法梳理
整合學習是訓練多個個體學習器 常為弱分類器 根據一定的結合策略形成乙個強監督模型,其思想是即便某乙個弱分類器得到了錯誤的 其他的弱分類器也可以將錯誤糾正回來。整合學習可用於分類問題整合,回歸問題整合,特徵選取整合,異常點檢測整合等等。根據個體學習器的生成方式分為 個體學習器間存在強依賴關係 必須序列...