剛碩士畢業了,趁著對所學知識還有記憶,趕快把之前筆記整理下,寫成部落格也方便整理。機器學習真是一門詭異的課程啊,感覺學了什麼又感覺什麼也沒學=_=。
主要內容
機器學習的基本過程
評估機器學習演算法
交叉檢驗
機器學習分為:
監督學習:
分類 1.1 決策樹
1.2 knn
1.3 svm
1.4 人工神經網路(非dnn)
回歸 2.1 線性回歸
2.2 非線性回歸
無監督學習:
聚類層次聚類
深度學習(既有監督也有無監督所以單獨摘出來說):
cnnrnn
比較常用的機器學習的演算法和結構就是如上面所示。
準確性速度
健壯性可規模化
可解釋性
只有從這五個方面去評估才能評價出機器學習演算法的優劣。
在拿到資料即資料集的時候,要把資料集,分成訓練集和測試集。
一種最常用的方法是平分,或者是取10分之一的資料來作為測試集合。剩下的都是訓練集。這樣有乙個弊端,是在資料量不是特別大的時候浪費資料。 那用來作為測試用的資料基本算是浪費了。因為演算法並沒有學習到這些資料中蘊含的規律。而且評估結果還容易產生誤差。但如果把測試集也用作訓練,則會使演算法過度擬合。所以乙個常用的方法就誕生了k-fold。比較常用的是10-fold。
演算法:10-fold
1. 把資料分成10份
2. 取出其中乙份為test set
3. 其他的9份都是training set
4. 用training set, training 演算法
5. 用test set 測試出其中的 準確率,或者 r方 什麼的來評估,得到結果 xi
6. 再從10份中選取從來沒又作為test set的乙份來作為test set.
7. 重複2-6的過程,直到每份都作為test set 使用過。
8. 把10個評估結果取平均值。
機器學習綜述
機器學習 machine learning,ml 是一門多領域交叉學科,涉及概率論 統計學 逼近論 凸分析 演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。基本目標是學習乙個x y的函式 對映 來做分類或者回...
機器學習綜述
監督學習 無監督學習 強化學習 遷移學習 演算法 線性回歸 k 近鄰演算法 決策樹 隨機森林 pca 神經網路 將標註好的和測試的樣本對映到座標系中,選取距離該測試樣本歐式距離最近的k個訓練樣本,其中哪個訓練樣本佔比最大,我們就認為它是該測試樣本所屬類別。knn可以處理數值型和標稱型資料,原因在於計...
統計機器學習綜述
記錄學習心得 一 什麼是機器學習 統計學習 統計學習就是根據資料來構建概率統計模型並用該模型對資料進行 與分析。那麼其中可以看出,資料是基礎,目的是對資料進行 與分析。根據定義可以提出幾個問題 需要什麼樣的資料?構建什麼樣的模型?以什麼方法構建?如何評價構建出來的模型的好壞?1 需要什麼樣的資料 需...