個人自學筆記,內容摘自原書+個人理解,不一定正確,若有誤,歡迎指出。機器學習的定義:
假設用p來評估電腦程式在某任務類t上的效能,若乙個程式通過利用經驗e在任務t中獲得了效能改善,則我們就說關於t和p,該程式對e進行了學習。[mitchell, 1997]
通俗地說,機器學習即是通過學習演算法,從經驗(資料)中產生模型,面對新的情況時,模型會給我們相應的結果與判斷。
可以抽象為: 資料——>學習演算法——>模型
新資料——>模型——>**結果
示例(instance)的集合。示例是對乙個事件或者物件(eg.乙個西瓜)的描述。示例包含了屬性或特徵(feature),以及相對於的屬性值或特徵值。屬性或特徵張成的空間稱為屬性空間或樣本空間,每乙個示例(西瓜)都可以在此空間中找到乙個座標(如西瓜色澤、根蒂、敲聲可作為三維空間的三個軸),因此乙個示例也可以稱為是空間中的乙個特徵向量。
因此資料常以矩陣形式進行運算,可以達到簡化演算法的作用,稱為向量化(vectorization)
以 d=
d=\d=
視為包含m個示例的資料集。
每個示例 xi=
\boldsymbol x_i = \,x_,...,x_\}
xi=
是d維樣本空間的乙個向量
分類( classification )與回歸( regression )
分類: **的是離散值,如「好瓜」或「壞瓜」,腫瘤的」良性「或」陽性「,則為分類問題。
若只有兩個類別,稱為二分類,否則為多分類問題。二分類問題通常使 y=或
y = \或\
y=或 回歸: **的是連續值,如房價,營業額等。
聚類 (clustering)
將訓練集中的資料分為若干組,每組稱為乙個簇(cluster), 如西瓜中的 「本地瓜」、「外地瓜」。 簇是我們事先不知道的,是學習過程中形成的,反映了資料的內在邏輯規律。
監督學習( supervised learning) 與無監督學習( unsupervised learning )
若 資料集中擁有標記資訊,即給出訓練集正確的結果,即為監督學習,意為從正確的答案中學習出規律,以此擁有對未知結果的資料集進行**的能力。(分類和回歸)
反之,從無標記資訊的資料集中學習,即為無監督學習。(聚類)
泛化 (generalization)
學得模型適用於新樣本的能力,稱為泛化能力。即學得的模型不僅適用與給定的訓練集,而且在整個樣本空間(訓練集只是整個樣本空間的乙個子集,可以理解為抽樣)中都能保持乙個**誤差較低的狀態。
「我們可以把學習過程看作乙個在所有假設(hypothesis)組成的空間中進行搜尋的過程,搜尋目標是找到與訓練集"匹配"的假設」 p5
在西瓜例子中 ,西瓜有特徵 色澤、根蒂與敲聲。那麼假設形式可以為: (色澤=?)∩(根蒂=?)∩(敲聲=?) , 以萬用字元*表示任意取值。 考慮極端情況,世界上根本沒有好瓜壞瓜這個概念,則以 空集∅ 表示。所有假設加上空集構成了該訓練集的假設空間,換句話說,所有特徵的特徵值的組合 加上 空集,即為假設空間
」在學習過程中,可以不斷刪除假設空間中與正例不一致的假設以及與反例一致的假設,最終會獲得與訓練集一致(即對素有訓練樣本都能正確判斷)的假設,就是我們學得的結果。「 p5
此結果即為 「版本空間」 ,實際上是假設空間的子集。值得注意的是,版本空間中的假設並不一定就是正確的假設,只是必然匹配所有訓練集中的示例。
如 假設h1:「->好瓜」 不應該進入版本空間,雖然這一條假設與表1.1中的第一條相匹配,但並不與第二條正例匹配。而第二條正例告訴我們,」色澤=烏黑,根蒂=蜷縮,敲聲=濁響「 也是好瓜。 如果假設h1成立,那麼這條假設將只匹配訓練集中的第一條,而不對所有示例都匹配。這樣的假設沒有」泛化「能力,這樣機器只是機械地記住了所有正例的特徵,對於訓練集**現了的正例特徵組合以外的瓜,將無法做出判斷。反之,假設h2:「->好瓜 " 能夠進入版本空間,因為這條假設對訓練集中四條示例都能夠正確匹配(也就是能夠做出正確的判斷)。
版本空間中可能存在多個與訓練集匹配的假設,那麼當模型面臨新樣本的時候,對於不同的假設,將產生不同的輸出。例如,p6 圖1.2的版本空間中,對於輸入 ,將得到不同的輸出。因此,模型必須要具有乙個「歸納偏好」,即演算法在學習過程中對某種型別假設的偏好,如更相信「根蒂」,那麼將偏好於 假設
那麼有沒有一種理論能夠告訴我們對於乙個模型,什麼偏好才是最好的,能得到最好的期望效能?
答案是沒有。詳見 nfl「沒有免費的午餐定理」 (no free lunch theorem)。由概率論數學證明可推得,總誤差與演算法無關。
但是nfl定理是有前提條件的,f
ff是均勻分布的,也就是說「所有問題出現的機會相同、或所有問題同等重要」,而在現實中,在不同的具體問題中,f
ff並不太可能是均勻分布的,比如現實中 的好瓜很常見,但的好瓜幾乎不存在,所以在西瓜的具體問題中,不同演算法(不同假設)的期望效能顯然有高低。
因此在實際問題中,演算法的歸納偏好是否更貼合問題本身,大多數時候直接決定了演算法能否取得更好的效能。
p9「我們需要注意到,nfl定理有乙個主要的前提:所有「問題」出現的機會相同,或所有問題同等重要。但實際情況並不是這樣。很多時候,我們只關注自己正在試**決的問題(例如某個具體應用任務),希望為它找到乙個解決方案,至於這個解決方案在別的問題、甚至在相似的問題上是否為好方案,我們並不關心。所以,nfl定理最重要的寓意,是讓我們清楚地認識到,脫離具體問題,空泛地談論「什麼學習演算法更好」毫無意義,因為若考慮所有潛在的問題,則所有學習演算法都一樣好。要談論演算法的相對優劣,必須要針對具體的學習問題;在某些問題上表現好的學習演算法,在另一些問題上卻可能不盡如人意。」
機器學習西瓜書 學習筆記(一) 緒論
開始學ml了!第一次用csdn寫blog,聊以自娛,也算是監督和動力叭 基本概念 機器學習 研究如何通過計算的手段,利用經驗來改善系統自身的效能 研究物件 學習演算法 統計學習 是一套以理解資料為目的的龐大工具集 學習演算法 在計算機上從資料中產生模型的演算法l mathcal l 模型 學習器 從...
Abee 吃掉西瓜 西瓜書學習筆記(七)
內容包含 第八章 整合學習一般是多個個體學習器以某種策略結合起來,其中的個體學習器可以是同質 homogeneous 的,成為 基學習演算法 也可以是異質 heterogenous 的,個體學習器成為元件學習器 component learner 目前的整合學習主要分兩類 1.序列進行的序列化方法,...
機器學習西瓜書筆記 1 緒論
書上要比別人的總結好理解的多 別人說來真覺淺,還需自己來深讀 機器學習輔助2012年美國 歐巴馬以及自動駕駛,其實都非常無比的說明 機器學習無比有前途,可以應用在生活的各個方面 機器學習正是這樣一門學科,它致力於研究如何通過計算的手段,利用經驗來改善系統自身的效能 在計算機系統中,經驗 通常以 資料...