機器學習是關於在計算機上從資料中產生模型
(mode)的演算法,即學習演算法
(learning algorithm)
學得模型對應了關於資料的某種潛在的規律,因此亦稱為假設
(hypothesis);這種潛在規律自身,則成為真相
或真實
(ground-truth);模型也可稱為學習器
(learner)
標記
(label)是輸出結果資訊,所有標記的集合為標記空間
或輸出空間
(label space);若我們**值是離散的,稱為分類
(classification);若**值是連續值,則稱此類學習任務為回歸
(regression).
根據訓練資料是否擁有標記資訊,可大致分為兩大類:監督學習
(supervised learning)和無監督學習
(unsupervised learning).分類和回歸是前者代表。聚類
(clustering)為後者代表,聚類指的的是將訓練集中的西瓜分成若干組,每組稱為乙個簇
(cluster),在學習過程中使用的訓練樣本通常不擁有標記資訊。
學得模型適應新樣本的能力,稱為泛化
能力。通常假設樣本空間中全體樣本服從乙個未知分布
(distribution)d,我們獲得的每個樣本都是獨立地從這個分布上取樣獲得地,即獨立同分布
(independent and identically distributed,簡稱i.i.d).訓練樣本越多,得到地關於d資訊越多,越有可能獲得地具有強泛化能力地模型。
我們可以把學習過程看作乙個在所有假設(hypothesis)組成地空間中進行搜尋地過程,搜尋目標是找到與訓練集匹配
(fit)的假設,即能將訓練集中判斷正確的假設。可能有多個假設與訓練集一致,即存在著乙個與訓練集一致的假設集合
,我們稱之為版本空間
(version space).
版本空間中選出合適的假設,便引入了歸納偏好,即機器學習在學習過程中對某種型別假設的偏好,稱為歸納偏好
(inductive bias).奧卡姆剃刀
(occam』s razor)是一種常見的、自然科學研究中最基本的原則,即若有多個假設與觀察一致,則選擇最簡單的那個。事實上,歸納偏好對應了學習演算法本身多做出的關於"什麼樣的模型更好"的假設。在具體的現實的問題中,這個假設是否成立,即演算法的歸納偏好是否與問題本身匹配,大多時候直接決定了演算法能否取得好的效能。
機器學習 初識機器學習
1.什麼是機器學習?對於機器學習到現在都還沒有統一的定義,但是,通過乙個例子和較權威的定義來理解機器學習,最後附上我個人對機器學習的理解 2.監督學習 1 監督學習基本思想 我們資料集中的每個樣本都有相應的 正確答案 即每個樣本都是真實值,再根據這些樣本作出 舉乙個房價預售的例子來說明 eg 下面圖...
初識機器學習
學機器學習已經大半年了,現在才發現自己是初識機器學習。一開始學機器學習,真的以為它是個機器,學會了就可以拿來用,或是拿來改進。現在才明白,學機器學習的方法不僅要弄明白理論基礎和演算法思路,還要明白演算法的脈絡,它的每一步都是為什麼這麼做,掌握演算法背後的真正的思想,才能融會貫通,針對不同的問題提出不...
初識機器學習
機器學習 資料 資料 做為輸入 輸出 找到最合適的演算法公式 機器學習的分類 有批量 batch 數量的情況下可應用 監督式學習 知道輸入與輸出 半監督式學習是 知道輸入與部分輸出 無監督式學習 不知道輸出 對應著聚類 clustering 對於機器學習的輸出 1.有明確的分類 是 否 並且是用一條...