《機器學習實戰》《西瓜書》筆記(一)

2021-09-29 23:43:53 字數 2066 閱讀 9914

我們要做的其實是讓機器他有自己學習的能力,也就我們要做的應該machine learning的方向。講的比較擬人化一點,所謂machine learning的方向,就是你就寫段程式,然後讓機械人變得了很聰明,他就能夠有學習的能力。接下來,你就像教乙個嬰兒、教乙個小孩一樣的教他,你並不是寫程式讓他做到這件事,你是寫程式讓它具有學習的能力。然後接下來,你就可以用像教小孩的方式告訴它。假設你要叫他學會做語音辨識,你就告訴它這段聲音是「hi」,這段聲音就是「how are you」,這段聲音是「good bye」。希望接下來它就學會了,你給它乙個新的聲音,它就可以幫你產生語音辨識的結果。

用數學的語義去理解,機器需要乙個函式對輸入進行自主判斷輸出,以完成回歸**、分類、聚類等實際任務

這組記錄的集合稱為乙個「資料集」 (data set)

其中每條記錄是關於乙個事件或物件(這裡是乙個西瓜)的描述,稱為乙個「示例」 (instance) 或"樣本" (sample)

反映事件或物件在某方面的表現或性質的事項,例如"色澤" 「根蒂」 「敲聲」,稱為")副主" (attribute) 或「特徵」(feature)屬性上的取值,例如"青綠" 「烏黑」,稱為")副主值" (attribute va1ue)

屬性張成的空間稱為"屬性空間" (attribute space)「樣本空間」 (samp1e space)或"輸入空間"

例如我們把"色澤" 「根蒂」 「敲聲"作為三個座標軸,則它們張成乙個用於描述西瓜的三維空間,每個西瓜都可在這個空間中找到自己的座標位置.由於空間中的每個點對應乙個座標向量,因此我們也把…個示例稱為乙個「特徵向量」 (feature vector).

eg:

$d = } $ 樣本包含m個例項

x i=

x_i = .....x_\}}

xi​=

d維樣本空間的乙個向量

((色澤:青綠;根蒂二蜷縮; 敲聲=濁響),好瓜)」 .這裡關於示例結果的資訊,例如"好瓜",稱為「標記」 (labe1); 擁有了標記資訊的示例,則稱為"樣例" (examp1e).

歸納是從特殊到一般的「泛化」過程,演繹是從一般到特殊的「特化」過程。 

學習的目的是「泛化」,即通過對訓練集中瓜的學習已獲得對沒見過的瓜進行判斷的能力。 

學習過程看作乙個在所以假設組成的空間中進行搜尋的過程,搜尋目標是找到與訓練集「匹配」的假設,即能夠將訓練集中的瓜判斷正確的假設。假設的表示一旦確實,假設空間及其規模大小就卻確定了。

我們用 m 表示這 個假設.這樣,若"色澤" 「根蒂」 "敲聲"分別有3、 2、 2 種可能取值,則我 們面臨的假設空間規模大小為 4 x 3 x 3 + 1 = 37.

現在有三個與訓練集一致的假設,但與他們對應的模型在面臨新樣本的時候,卻會產生不同的輸出。根據僅有的訓練樣本無法判斷三個假設中哪個「更好」。對於乙個具體的學習演算法而言,它必須要產生乙個模型,這時,學習演算法本身的「偏好」起到關鍵左右。例如,若演算法喜歡「盡可能特殊」的模型,則會有相應的模型產生。機器學習演算法在學習過程中對某種型別假設的偏好,稱為「歸納偏好」。 

任何乙個有效的機器學習演算法必有其歸納偏好,否則產生的模型每次在進行**時隨機抽選訓練集上的等效假設,學得模型結果不一,顯然沒有意義。

歸納偏好可看作學習演算法自身在乙個可能很龐大的假設空間中對假設進 行選擇的啟發式或"價值觀"那麼,有沒有一般性的原則來引導演算法確立 「正確的"偏好呢? 「奧卡姆剃刀」 (occam』s razor)是一種常用的、自然科學 研究中最基本的原則,即"若有多個假設與觀察一致,則選最簡單的那個"如 果採用這個原則,並且假設我們認為"更平滑"意味著"更簡單」 (例如曲線 a 更易於描述,其方程式是 y=x

2+6x

+1

y = x2+ 6x + 1

y=x2+6

x+1 ,而曲線 b 則要複雜得多),則在 圖1.3 中我們會自然地偏好"平滑"的曲線 a.

機器學習西瓜書筆記

概念 致力於通過計算的手段,利用經驗來改善系統自身的效能。其中,經驗以資料的形式存在。基本術語 資料集 記錄的集合。示例 樣本 每條記錄,關於乙個事件或物件的描述,反應事件或物件在某方面的表現或性質的事項。屬性 特徵 一條記錄 乙個樣本由多個屬性 特徵組成。屬性值 屬性或特徵的值。示例對應於乙個座標...

機器學習 西瓜書(筆記一) 緒論

在機器學習中常見的基本術語包含 資料集 屬性值 屬性空間 特徵向量 訓練集 測試集等等,各自的英文表示在思維導圖中有提及。假設空間主要提及了兩種方法 歸納法和演繹法。歸納法是從特殊到一般的 泛化 演繹法是從一般到特殊的 特化 歸納偏好指的是總誤差是與學習演算法無關的,任意兩種演算法的誤差都相等。說到...

機器學習(西瓜書) 緒論筆記

正如我們根據過去的經驗來判斷明天的天氣,吃貨們希望從購買經驗中挑選乙個好瓜,那能不能讓計算機幫助人類來實現這個呢?機器學習正是這樣的一門學科,人的 經驗 對應計算機中的 資料 讓計算機來學習這些經驗資料,生成乙個演算法模型,在面對新的情況中,計算機便能作出有效的判斷,這便是機器學習。另一本經典教材的...