什麼是機器學習?
[mitchell,1997]:假設用p來評估電腦程式在某任務類t上的效能,若乙個程式通過利用經驗e在t中任務上獲得了效能改善,則我們就說關於t和p,該程式對e進行了學習。
全文第1章緒論部分重點介紹了機器學習中的基本術語;假設空間;歸納偏好;發展歷程與現狀
基本術語
以一批西瓜為例(估計這就是西瓜書的由來):
(色澤 = 青綠;根蒂 = 蜷縮;敲聲 = 濁響),
(色澤 = 烏黑;根蒂 = 稍蜷;敲聲 = 沉悶),
(色澤 = 淺白;根蒂 = 硬挺;敲聲 = 清脆)。
根據上述資料為例,我們有如下概念:
資料集(data set):這組資料的集合
示例/樣本(instance/sample):資料集中,每條記錄是關於乙個事件或物件(這裡是乙個西瓜)的描述
屬性/特徵(attribute/feature):反映事件或物件在某方面的表現或性質的事項,例如色澤、根蒂、敲聲
屬性值(attribute value):屬性上的取值
屬性空間/樣本空間/輸入空間(attribute/sample/input space):屬性張成的空間,乙個屬性當作乙個座標軸,在上述資料中存在3個屬性(可以理解成維度),我們可以將其張成三維空間,每乙個西瓜都可以在該三維空間中找到自己的座標
特徵向量(feature vector):由於空間中的每個點對應乙個座標向量,因此也稱乙個示例為乙個「特徵向量」
維數(dimensionality):可以理解為屬性的數量
學習/訓練(learning/training):從資料中學習模型的過程
訓練資料(learning data):訓練過程中使用的資料
訓練樣本(learning set):訓練資料中的每乙個樣本稱為乙個訓練樣本
訓練集(training set):訓練樣本組成的集合
測試(testing):學得模型後,使用其進行**的過程
標記(label):以上述資料為例((色澤 = 青綠;根蒂 = 蜷縮;敲聲 = 濁響),好瓜)中的「好瓜」,我們稱為標記
監督學習(supervised learning):訓練資料有標記資訊
無監督學習(unsupervised learning):訓練資料無標記資訊
假設空間
歸納(induction):從特殊到一般的「泛化」(generalization)過程,從具體事實歸結出一般性規律
演繹(deduction):從一般到特殊的「特化」(specialization)過程,從基礎原理推演出具體狀況
機器學習,是從訓練集的有限資料中,得到「泛化」的模型,進而得到最後的假設。學習的過程,就是從所有假設組成的空間中進行搜尋的過程,搜尋目標是找到與訓練集「匹配(fit)」的假設。
以上述西瓜為例,下述為西瓜例子的假設空間:
好瓜 (
有許多策略對假設空間進行搜尋,最終我們會獲得與訓練集一致(即對所有訓練樣本能夠進行正確判斷)的假設。
但現實生活中我們面臨的假設空間往往會很大,因此,可能有很多假設與訓練集一致,即存在著乙個與訓練集一致的「假設集合」,我們稱之為「版本空間」(version space)
歸納偏好
歸納偏好(inductive bias):機器學習演算法在學習過程中對某種型別假設的偏好
任何乙個有效的機器學習演算法必定有其歸納偏好!
以西瓜為例,我們可以採用下述多種方式來判斷西瓜為好瓜:
好瓜 蜷縮) (演算法喜歡更泛化的模型)
好瓜 蜷縮) 濁響) (演算法喜歡更特殊的模型)
上述兩種判斷方法(演算法)並無高低之分,因為訓練集和測試集的資料是不一樣的。我們不能確定,泛化效能好一些的表現更好,還是泛化效能差一些的表現更好的。
引入nfl定理(no free lunch theorem,沒有免費的午餐定理):針對某一域的所有問題,所有演算法的期望效能是相同的
nfl定理最大的意義,是告訴我們,脫離具體問題,空泛的談論,哪一種學習演算法更好,是沒有意義的。
發展歷程與現狀暫不做筆記
周志華 機器學習 讀書筆記
分類 classification 的是離散值,比如 好瓜 壞瓜 回歸 regression 的是連續值,例如西瓜成熟度 0.79 0.95 泛化 generalization 學得模型適用於新樣本的能力,稱為 泛化 generalization 能力.資料探勘 data mining 從海量資料中...
周志華《機器學習》筆記(一)緒論
第一章 緒論 1 資料集 data set 機器學習資料的集合 2 示例 樣本 instance sample 每條資料描述了乙個物件的資訊,該物件稱之為示例,一般用x表示 3 屬性 attribute 資料描述的樣本在某些方面的性質 4 樣本空間 sample space 樣本張成的空間,又稱 屬...
《機器學習》周志華 讀書筆記二補充(原創)
第2章 模型評估與選擇 p24 p51 2017 2 24 fri model selection模型選擇 選用哪種學習演算法 使用哪種引數配置 理想的解決方案 對候選模型的泛化誤差進行評估,再選擇泛化誤差最小的那個模型 通過實驗來對學習器的泛化誤差進行評估並進而做出選擇 hold out留出法 將...