新人一枚,既是機器學習的初學者,也是首次發部落格。謹以此記錄我的學習體會,做一些總結。望與大家共同學習、共同進步。文中若有內容錯誤或有措詞不嚴謹之處,望大家不吝指出。謝謝!
根據上圖我們可以用乙個三維空間來了解以下幾個基本術語。
屬性與屬性值:屬性反映事件或物件在某方面的表現或性質的事項,在此圖表示為軸x1,x2,x3。即表示某個物件有3個屬性。屬性值就表現為在軸x1,x2,x3上可能的取值。
屬性空間:由這三個屬性張成的三維空間稱為屬性空間,亦稱為樣本空間或輸入空間。
特徵向量:空間中的每個點對應乙個座標向量,如圖中a、b、c點。乙個示例(沒有標記資訊的樣本)也稱之為乙個「特徵向量」。
訓練集:訓練過程中使用的資料稱為「訓練資料」,其中每個樣本稱為乙個」訓練樣本」,訓練樣本組成的集合稱為「訓練集」。
測試樣本:學得模型後,使用其測試的過程稱之為「測試」,被**的樣本稱為「樣本測試」。
將學習的過程看作乙個在所有假設組成的空間中進行搜尋的過程,搜尋的目標是找到能夠將訓練集判斷正確的假設。那麼什麼是假設空間呢?
假設空間的大小是由屬性值所確定的,即每個屬性的可能取值(包括為空)構成了整個假設空間。我們在假設空間中進行搜尋,最終搜尋到與訓練集一致的假設就是我們學習的結果。
版本空間:在假設空間中存在著乙個或者多個假設與訓練集一致。這樣乙個或多個假設構成的集合我們稱之為「版本空間」。
《機器學習》(周志華)學習筆記(一)
一 假設空間 科學推理的兩大手段 歸納 induction 和演繹 deduction 歸納 泛化過程,從具體的事實歸結出一般性規律 演繹 特化過程,從基礎原理推演出具體狀況 學習過程可以看作乙個在所在假設組成的空間中進行搜尋的過程,搜尋目標是找到與訓練集 匹配 fit 的假設,即可以將訓練集中的樣...
機器學習周志華筆記
1,監督學習 分類 回歸 無監督學習 聚類 2,決策樹 根據資訊增益的大小來確定節點 資訊熵 描述事務確定性程度的值 需要多少個bit來描述資訊 ent d pklog2pk 資訊增益 資訊熵 某個屬性劃分的平均資訊熵 該屬性劃分純度 3,支援向量機中對超平面的理解 劃分超平面用以下線性方程表示 w...
周志華 機器學習 筆記
學習演算法自身的歸納偏好與問題是否相配,往往會起到決定作用。對於上面這句話 你的輸入資料被怎麼處理,最終得到什麼結果,我認為偏好指的就是這個處理的過程。線性非線性?那些feature忽略掉?怎麼利用這些資料?更具體一些,你用網路處理,還是傳統方法,資料的分布和你的處理方法相符嗎?沒有免費的午餐定理 ...