機器學習的工作流程
機器學習演算法的傳統分類
機器學習演算法的其他分類方式
引數學習/非引數學習
以鳶尾花的資料集為例:
花萼長度
花萼寬度
花瓣長度
花瓣寬度
種類5.1
3.21.4
0.2se(0)
7.03.2
4.71.4
ve(1)
6.33.3
62.5
vi(2)
可轉換為多分類問題的任務
如何處理分類任務
多標籤分類
對中的人物以及其他物品都進行劃分。
針對以波士頓房價資料為例的連續資料,機器學習將之處理為回歸任務
房屋面積(平方公尺)
房屋年齡(年)
臥室數量(間)
最近地鐵站距離(km)
**(w)803
11030012083
5500
2005412
700
如何處理回顧任務
機器學習演算法
模型 給機器的訓練資料擁有「標記」或者「答案」,則稱為監督式學習。
監督學習演算法
給機器訓練的資料是沒有任何標記或"答案",稱之為非/無監督學習
應用場景
異常檢測
一部分資料有「 標記」或者「答案」,而另一部分沒有。
常規處理方案
根據周圍環境的情況,採取行動,根據採取行動的結果,學習行動方式。這樣的機器學習方法稱之為增強學習。
代表演算法
批量學習(離線學習)
缺點:每次重新批量學習都會對cpu/gpu造成極大的開銷,同時會產生時間的開銷。
在某些環境變化非常塊的情景,重新批量學習是沒有意義的。
問題:新的資料(不正常的資料)可能帶來不好的變化
引數學習
假設可以最大程度地簡化學習過程,與此同時也限制可以學習到是什麼,這種演算法簡化成乙個已知的函式形式,即通過固定數目的引數來擬合資料的演算法。
特點:一旦模型學習到了引數,就不再需要原有的資料集。
比如房價**就是引數學習的一種,我們試圖找到房屋各個特徵對房價結果的影響程度,而這些影響程度就是引數:
引數學習演算法包括兩個步驟:
引數學習演算法的一些常見例子包括:
引數機器學習演算法的優點:
引數機器學習演算法的侷限性:
非引數學習
特點:不對模型進行過多假設,將模型視作乙個黑盒,非引數不等於沒引數。通過不做假設,它們可以從訓練資料中自由地學習任何函式形式,即引數數量會隨著訓練樣本數量的增長的演算法。
非引數學習演算法的一些常見例子包括:
非引數機器學習演算法的優點:
非引數機器學習演算法的侷限性:
過擬合:更多的過度擬合訓練資料風險,同時它更難解釋為什麼要做出的具體**
區域性加權線性回歸其實是乙個非引數學習演算法(non-parametric learning algorithm);
線性回歸則是乙個引數學習演算法(parametric learning algorithm),因為它的引數是固定不變的,而區域性加權線性回歸的引數是隨著**點的不同而不同。
過擬合:更多的過度擬合訓練資料風險,同時它更難解釋為什麼要做出的具體**
區域性加權線性回歸其實是乙個非引數學習演算法(non-parametric learning algorithm);
線性回歸則是乙個引數學習演算法(parametric learning algorithm),因為它的引數是固定不變的,而區域性加權線性回歸的引數是隨著**點的不同而不同。
由於每次**時都只看**點附近的例項點,因此每一次**都要重新執行一遍演算法,得出乙個組引數值,因此其計算代價很大。
機器學習系列筆記(一)
通俗來講,機器學習是一門致力於研究如何通過計算的手段,利用資料來改善系統自身的效能的學科。在進行機器學習之前,我們應該提前收集一批資料作為計算機的 經驗 這組資料的集合稱為資料集 其中每條記錄是關於乙個事件或者物件的描述,稱為示例 在事例中反映物件的某方面屬性稱為屬性或特徵 特徵的值稱為屬性值 所有...
機器學習系列筆記 五
learning 拆分為兩個問題 一 我們如何可以讓ein g 和eout g 足夠接近?二 如何讓ein g 變的越來越小?m hyposesis的大小 m比較小的時候 good,p bad 2mexp bad 很少的選擇 m比較大的時候 好的選擇,壞事情發生的機率增加 把hypotheses 分...
機器學習系列筆記 八
雜訊與錯誤 noise and error 不同錯誤適用於不同的場景 false accpet 錯誤接受 false reject 錯誤拒絕 商場打折 fbi門禁 各種情況下有不同的權重 weighted classification weighted pocket algorithm 權重口袋演算...