內容整理引用自matlab 機器學習(官方中文電子書)
機器學習教計算機執行人和動物與生俱來的活動:從經驗中學習。機器學習演算法使用計算方法直接從資料中「學習」資訊,而不依賴於預定方程模型。當可用於學習的樣本數量增加時,這些演算法可自適應提高效能。
實際環境中的應用:
機器學習的工作原理
監督式學習
旨在構建能夠根據存在不確定性的證據做出**的模型。監督式學習演算法接受已知的輸入資料集和對資料的已知響應(輸出),然後訓練模型,讓模型能夠為新輸入資料的響應生成合理的**。
在乙個有監督的學習任務中,資料樣本將包含乙個目標屬性 y,也就是所謂的真值(ground truth)。我們的任務是通過學習得到乙個函式 f,它接受非目標屬性 x,並輸出乙個接近目標屬性的值,即 f(x)≈y。目標屬性 y 就像指導學習任務的教師,因為它提供了乙個關於學習結果的基準。所以,這項任務被稱為有監督學習。
監督式學習採用分類和回歸技術開發**模型:
無監督學習
與有監督的學習任務相反,我們在無監督的學習任務中沒有設定真值。人們期望從資料中學習潛在的模式或規則,而不以預先定義的真值作為基準。
無監督學習可發現資料中隱藏的模式或內在結構。這種技術可根據包
含未標記響應的輸入資料的資料集執行推理。
聚類是一種最常用的無監督學習技術。這種技術可通過探索性資料分
析發現資料中隱藏的模式或分組。
聚類的應用包括基因序列分析、市場調查和物件識別。
半監督學習
在資料集很大,但標記樣本很少的情況下,可以找到同時具備有監督和無監督學習的應用。我們可以將這樣的任務稱為半監督學習(semi-supervised learning)。
通過將有監督和無監督的學習結合在乙個只有少量標記的資料集中,人們可以更好地利用資料集,並獲得比單獨應用它們更好的結果。例如,人們想要**影象的分類,但只對影象的 10% 進行了標記。通過有監督的學習,我們用有標記的資料訓練乙個模型,然後用該模型來**未標記的資料,但是我們很難相信這個模型是足夠普遍的,畢竟我們只用少量的資料就完成了學習。一種更好的策略是首先將影象聚類成組(無監督學習),然後對每個組分別應用有監督的學習演算法。第一階段的無監督學習可以幫助我們縮小學習的範圍,第二階段的有監督學習可以獲得更好的精度。
引用[1]. fisher,r.a. 「the use of multiple measurements in taxonomic problems」 annual eugenics, 7, part ii, 179-188 (1936)
通常我們會根據輸出值的型別將機器學習模型進一步劃分為分類(classification)和回歸(regression)。
如果機器學習模型的輸出是離散值(discrete values),例如布林值,那麼我們將其稱為分類模型。如果輸出是連續值(continuous values),那麼我們將其稱為回歸模型。人們經常應用一種稱為邏輯回歸(logistic regression)的機器學習模型,這種模型將連續概率值作為輸出,但用於解決分類問題。如何確定使用哪種演算法?
何時應該使用機器學習?
當您遇到涉及大量資料和許多變數的複雜任務或問題,但沒有現成的
處理公式或方程式時,可以考慮使用機器學習。例如,如果您需要處理
以下情況,使用機器學習是乙個很好的選擇:
機器學習基本概念
什麼是學習?如果乙個系統能夠通過執行某個過程改進它的效能,這就是學習。赫爾伯特 西蒙 什麼是機器學習?對於某給定的任務 t 在合理的效能度量方案 p的前提下,電腦程式可以通過自主學習任務 t 的經驗 e 隨著提供合適,優質,大量的經驗 e 該程式對於任務 t的效能逐步提高。任務,經驗,效能 什麼是統...
機器學習基本概念
1.基本的概念 領域集 乙個任意的集合 集合中的例項是我們希望能夠貼上標籤的資料。的元素稱為例項。標籤集 學習器所追求的結果集合。可以為,器想要得到的最終資料。訓練資料 帶標籤的領域及元素集合,通常會組成乙個區域性聚合s,也叫作訓練集。2.機器學習的一般流程 採集資料 標記 訓練 得到 器 乙個學習...
機器學習基本概念
1.基本概念 訓練集 測試集 特徵值 監督式學習 非監督學習 半監督學習 分類 回歸 2.概念學習 概念學習是指從某個布林函式的輸入輸出訓練樣例中推斷出該布林函式。3.樣例 天氣 溫度 濕度 風力 水溫 預報 享受運動 1 晴 暖 普通 強 暖 一樣 是 2 晴 暖 大 強 暖 一樣 是 3 雨 冷...