概念:致力於通過計算的手段,利用經驗來改善系統自身的效能。其中,經驗以資料的形式存在。
基本術語:
資料集:記錄的集合。
示例/樣本:每條記錄,關於乙個事件或物件的描述,反應事件或物件在某方面的表現或性質的事項。
屬性/特徵:一條記錄/乙個樣本由多個屬性/特徵組成。
屬性值:屬性或特徵的值。
示例對應於乙個座標向量,所以又稱特徵向量。
輸入空間/樣本空間:屬性張成的空間。
輸出空間/標記空間:所有標記的集合。
訓練樣本:訓練集中用於訓練的樣本。
測試樣本:訓練集中用於測試的樣本。
機器學習分類
監督學習:分類(**的為離散值)+回歸(**的為連續值)。
無監督學習:聚類(資料集沒有標記)。
假設空間
歸納:從特殊到一般。
演繹:從一般到特殊。
機器學習,從樣例中學習,顯然是乙個歸納的過程,故也稱為歸納學習。
假設空間:學習到的所有假設(模型)。從假設空間,進行搜尋,搜尋過程中不斷刪除與正例不一致的假設和與反例一致的假設,最終獲得與訓練集一一致的假設。
版本空間:但是在學習到的假設中,因為訓練集樣本的有限,會存在多個假設和訓練集一致的現象。從而引發模型(假設)的選擇。
假設(模型)選擇—歸納偏好
歸納偏好:機器學習演算法在學習過程中,對某種型別假設的偏好。
奧卡姆剃刀:若有多個假設與觀察一致,則選擇最簡單的那個。但並不是唯一的選擇原則。
模型評價
泛化能力:指訓練的模型的對新樣本的適應能力。
總結
對於乙個學習演算法a,若它在某問題上比學習演算法b好,則必然存在另一些問題,在那裡b比a好.無論學習演算法a多聰明,學習演算法b多笨拙,他們的期望效能竟然一樣;即"沒有免費的午餐"定理(no free lunch theorem,nfl).因此要談論演算法的相對優劣,必須要針對具體的學習問題。脫離具體問題,空泛的談論則毫無意義。
機器學習(西瓜書) 緒論筆記
正如我們根據過去的經驗來判斷明天的天氣,吃貨們希望從購買經驗中挑選乙個好瓜,那能不能讓計算機幫助人類來實現這個呢?機器學習正是這樣的一門學科,人的 經驗 對應計算機中的 資料 讓計算機來學習這些經驗資料,生成乙個演算法模型,在面對新的情況中,計算機便能作出有效的判斷,這便是機器學習。另一本經典教材的...
《機器學習實戰》《西瓜書》筆記(一)
我們要做的其實是讓機器他有自己學習的能力,也就我們要做的應該machine learning的方向。講的比較擬人化一點,所謂machine learning的方向,就是你就寫段程式,然後讓機械人變得了很聰明,他就能夠有學習的能力。接下來,你就像教乙個嬰兒 教乙個小孩一樣的教他,你並不是寫程式讓他做到...
機器學習 西瓜書(筆記一) 緒論
在機器學習中常見的基本術語包含 資料集 屬性值 屬性空間 特徵向量 訓練集 測試集等等,各自的英文表示在思維導圖中有提及。假設空間主要提及了兩種方法 歸納法和演繹法。歸納法是從特殊到一般的 泛化 演繹法是從一般到特殊的 特化 歸納偏好指的是總誤差是與學習演算法無關的,任意兩種演算法的誤差都相等。說到...