學習演算法:機器學習所研究的主要內容,是關於在計算機上從資料中產生「模型」的演算法,即「學習演算法」
學習演算法的作用:
屬性/特徵:反應事件或物件在某方面的表現或性質的事項
樣本空間/輸入空間:屬性張成的空間
n個特徵 → n維空間
模型:從資料中學得的結果
學習器:學習演算法在給定資料和引數空間上的例項化
標記→ 「好瓜/壞瓜」
樣例:擁有了標記資訊的示例
標記空間/輸出空間:標記的集合
泛化能力:學得的模型適用於新樣本的能力(訓練樣本越多可能獲得強泛化能力的模型)
假設:學習模型對應了關於資料的某種潛在的規律
真相/真實:這種潛在規律自身,學習過程就是為了找出或逼近真相
廣義的歸納學習:產生「黑箱」模型
狹義的歸納學習:學的概念
假設空間:機器學習中可能的函式構成的空間
版本空間:可能有多個假設與訓練集一致,與訓練集一致的「假設集合」
歸納偏好:(特徵選擇)機器學習演算法在學習過程中對某種型別假設的偏好
「奧卡姆剃刀」原則:若有多個假設與觀察一致,選擇最簡單的那個
(難點在於 怎麼確定「簡單」?)
「沒有免費的午餐」定理:(前提:所有問題出現的機會相同或所有問題同等重要)無論演算法「聰明」或「笨拙」,他們的期望效能相同。總誤差與學習演算法無關。
要談論演算法的相對優劣,必須針對具體的學習問題。
人工智慧 > 機器學習 > 深度學習
書中例子為西瓜,為判斷西瓜的好壞,其屬性有三種:色澤、根蒂、敲聲。這三種屬性分別有3、3、3種可能取值,其假設空間的規模為65。
這是因為,在假設空間中,屬性的「無論取什麼屬性值都合適」也是一種屬性值,而不是作為單一屬性的3種可能取值的集合存在。
只與色澤有關:3
只與根蒂有關:3
只與敲聲有關:3
與根蒂、敲聲有關:9
與色澤、敲聲有關:9
與色澤、根蒂有關:9
與三者均有關:27
與三者均無關:2(都是好瓜/都是壞瓜)
綜上,假設空間規模為65.
西瓜書第一章筆記
在這裡先列舉一些我先前不了解的基本術語 根據一些樣例,來訓練我們的模型。如果 的是離散值,例如 好瓜 壞瓜 這種學習任務我們稱為 分類 classification 如果 的是連續值,例如西瓜的成熟度0.95 0.37,這類任務稱為 回歸 regression 泛化能力 generalization...
西瓜書第一章 緒論
人工智慧發展歷程 1 推理期 二十世紀五十年代到七十年代初。2 知識期 二十世紀七十年代中期,專家系統。3 學習期 二十世紀八十年代以來,被研究最多 應用最廣的是 從樣例中學習 一大主流是符號主義學習,代表包括決策樹和基於邏輯的學習 二十世紀九十年代中期之前,從樣例中學習 的另一主流技術是基於神經網...
西瓜書 周志華 機器學習第一章 緒論
1.什麼是機器學習?人區別於機器,更多是基於經驗累積起來的個體。比如今天我起床看見天空有點兒灰暗,沒有太陽,那我就可以初步預判今天應該是會下雨。走在路上發現,風越吹越大,蜻蜓也在低飛,天越來越黑,這時你知道要下雨了,而且根據以往十幾年來的經驗判斷,這雨還不小,我得趕緊找個地方躲起來。人呢 遇到事多了...