對於機器學習演算法也使用了一段時間,現在進行乙個系統的學習和總結,也給自己補缺補差,回頭來看,發現對於機器學習的理解更加的清晰,更加有條理,在整體的思路上的把握也更加的完善,所以建議對於機器學習的學習一定要多實踐,多回頭檢視、監督學習:在監督學習中,我們只需要給定輸入樣本集,機器就可以從中推測出指定目標變數的可能結果。
監督學習使用兩種型別的目標變數:標稱型和數值型。
標稱型:其目標變數的結果只在有限目標集中取值,如真與假、動物分類集合
數值型:其目標變數可以從無限的數值集合中取值,如1.002、42.001、100.58等
利用計算機來彰顯資料背後的真實含義,這才是機器學習的真實含義。
機器學習就是把無序的資料轉換成有用的資訊。
如何能夠準確**人類當前60%的行為?怎樣**人們所參與時間的結果呢?如何**在美國**中**競選的比例呢?
二義性問題:「最大化利潤」、「最小化風險」、「最好的市場策略」……..
如何解釋資料、處理資料、從資料中抽取價值、展示和交流資料結果,這將是我們所討論的重要問題。
以鳥類分類系統為例:
基於四種特徵的鳥物種分類表:-體重
翼展腳蹼
後背顏色種類1
1000.1
125.0無棕色
紅尾鳥2
3000.7
200.0無灰色
鷺鷹33300.0
220.3無灰色
鷺鷹44100.0
136.0有黑色
普通千鳥
53.0
11.0無綠色
瑰麗蜂鳥
6570.0
75.0無黑色
象牙啄木鳥
從表中可以發現,所使用的是鳥類的四種特徵,前兩種特徵為數值型,第三種特徵為二值型,第四種特徵為自定義的列舉型別。
機器學習的首要任務就是分類,如何從資料中獲取相關的資料,並對資料進行一定的處理,來對資料進行分類,並將結果應用到資料的**當中,這也就是機器學習的根本目的。
對於分類來說,首要的就是如何進行演算法的訓練,通常為演算法的輸入大量已分類資料作為演算法的訓練集,訓練集是用於訓練機器學習演算法的資料樣本集合。目標變數是機器學習演算法的**結果,在分類演算法中目標變數的型別通常是離散型的,而在回歸演算法中通常是連續型的。
機器學習的主要任務就是分類,將例項資料劃分到合適的分類中。
機器學習的另一項任務就是回歸,用於**數值型資料,通過資料擬合曲線來進行資料擬合,**可能的結果。
分類和回歸都屬於監督學習,監督學習就是必須首先要知道**什麼,即目標變數的分類資訊。
而非監督學習,則是在資料上並沒有類別資訊,也不會給定目標值;在非監督學習中,將資料集合分成由類似的物件組成的多個類的過程被稱為聚類,將尋找描述資料統計值的過程稱為密度估計。
用於執行分類、回歸、聚類和密度估計的機器學習演算法
監督學習的用途
k近鄰演算法
線性回歸
樸素貝葉斯演算法
區域性加權線性回歸
支援向量機
ridge回歸
決策樹lasso最小回歸係數估計
無監督學習的用途
k-均值
最大期望演算法
dbscan
parzen窗設計
如果要**目標變數的值,則可以選擇監督學習演算法,否則可以選擇非監督學習演算法。
如果目標變數是連續型,如0.0~100.0、-999~999,則選擇回歸演算法。
對於非監督學習演算法:如果需要將資料劃分為離散的組,則使用聚類演算法;
如果還需要估計資料與每個分組的相似程度,則需要使用密度估計演算法。
1、收集資料
2、準備輸入資料
3、分析輸入資料
4、訓練演算法
5、測試演算法
6、使用演算法
機器學習 計算學習理論
分析學習任務的困難本質,為學習演算法提供理論保證,並根據分析結果指導演算法設計。由於 d 是 的同分布取樣,因此 h 的泛化誤差等於經驗誤差的期望。經驗風險最小化 empirical risk minimization 原則令 h 為學習演算法 的輸出假設,滿足e h minh e h 則稱 滿足經...
機器學習 計算學習理論
如果你不是數學系的,就不要看這個了。由於下面內容是用來證明機器學習的方法的正確性,你能夠用機器學習來得到你想要的結果。然而對於程式設計或者使用這種方法的人來說,你僅僅要放心大膽地用即可了。就像你知道1 1 2,你並不須要知道它為什麼等於,反正你能夠用。下面使用到的來自上海交大楊暘老師的課件。例如以下...
機器學習理論 GMM模型
李航.統計學習方法中高斯混合模型僅介紹一元高斯分布的情況,周志華.機器學習則採用多元高斯分布的寫法,但求解過程不夠突出em演算法的思想。此外,李航.統計學習方法中的一些寫法會產生誤解。因此下面過程主要根據李航.統計學習方法中的推導方法,但會有部分修正。gmm演算法主要利用em演算法來估計高斯混合模型...