一組記錄的集合,例如:
注:d
dd又稱為樣本的維數
資料集中每條記錄是關於乙個事件或物件的描述,例如:
反映事件或物件在某方面的表現或性質的事項,例如:
屬性上的取值,例如:
屬性張成的空間,例如:
假設有三種屬性:色澤、根蒂、敲聲,就可以張成乙個用於描述細化的三維空間,每個西瓜都可以在這個空間中找到自己的座標位置。
用x
xx表示,xi∈
xx_i\in x
xi∈
x上面說了每個西瓜可以在屬性張成的空間中找到自己的位置,也就意味著每個西瓜對應著乙個座標向量,而每個西瓜又是乙個示例,乙個示例就是乙個特徵向量。
從資料中學得模型的過程,這個過程可以通過執行某個演算法來完成
訓練過程中使用的資料
訓練資料中的每個樣本稱為乙個訓練樣本
訓練樣本的集合
學習模型學得的關於資料的潛在規律
帶有結果資訊的訓練樣本,例如:
((色澤=青綠;根蒂=蜷縮;敲聲=濁響),好瓜
)
擁有標記資訊的示例,例如:
((色澤=青綠;根蒂=蜷縮;敲聲=濁響),好瓜)
一般用(xi
,yi)
(x_i,y_i)
(xi,y
i)表示第i
ii個樣例
所有標記的集合,用y
yy表示
學得模型適用於新樣本的能力
機器學習西瓜書筆記
概念 致力於通過計算的手段,利用經驗來改善系統自身的效能。其中,經驗以資料的形式存在。基本術語 資料集 記錄的集合。示例 樣本 每條記錄,關於乙個事件或物件的描述,反應事件或物件在某方面的表現或性質的事項。屬性 特徵 一條記錄 乙個樣本由多個屬性 特徵組成。屬性值 屬性或特徵的值。示例對應於乙個座標...
機器學習(西瓜書) 緒論筆記
正如我們根據過去的經驗來判斷明天的天氣,吃貨們希望從購買經驗中挑選乙個好瓜,那能不能讓計算機幫助人類來實現這個呢?機器學習正是這樣的一門學科,人的 經驗 對應計算機中的 資料 讓計算機來學習這些經驗資料,生成乙個演算法模型,在面對新的情況中,計算機便能作出有效的判斷,這便是機器學習。另一本經典教材的...
《機器學習實戰》《西瓜書》筆記(一)
我們要做的其實是讓機器他有自己學習的能力,也就我們要做的應該machine learning的方向。講的比較擬人化一點,所謂machine learning的方向,就是你就寫段程式,然後讓機械人變得了很聰明,他就能夠有學習的能力。接下來,你就像教乙個嬰兒 教乙個小孩一樣的教他,你並不是寫程式讓他做到...