1 周志華西瓜書筆記 緒論

2021-10-06 18:39:45 字數 789 閱讀 8255

學習周志華的機器學習隨筆

第一章:緒論

模型:泛指從資料中學得的結果

1.2基本術語

進行機器學習需要有資料,記錄的集合稱為資料集。

記錄,是關於乙個事件或物件的描述,也稱為示例或樣本。

樣本作為事物,有其屬性,屬性上的取值稱為屬性值,屬性張成的空間稱為屬性空間。

訓練模型,需要有標記(label)的資料,這種資料稱為樣例。

y是標記的集合,稱為標記空間(label space)或輸出空間。

模型建成後,對其進行**的過程稱為「測試」,被測試的樣本稱為「測試樣本」。

**離散值的學習任務,例如**好瓜壞瓜,稱為分類,同時」分類「還分為二分類和多分類。

**連續值的學習任務,稱為回歸。

**任務的實質是希望通過對訓練集進行學習,從而可以建立乙個從輸入空間x到輸出空間y的對映。

聚類學習:通過學習沒有標記的資料集,幫助我們了解資料的內在規律。按照某乙個特定的標準(比如距離),把乙個資料集分割成不同的類或簇,使得同乙個簇內的資料物件的相似性盡可能大,同時不再同乙個簇內的資料物件的差異性也盡可能的大。

學習模型適用於新樣本的能力,稱為泛化能力。

1.3假設空間

假設空間:在學習過程中,由所有假設組成的空間。

版本空間:與訓練集一致的假設集合。

1.4歸納偏好

奧卡姆剃刀原則:若有多個假設與觀察一致,則選擇最簡單的那個。

周志華西瓜書筆記 1 3 假設空間

歸納 induction 是從特殊到一般的 泛化 generalization 過程,即從具體的事實歸結出一般性規律 演繹 deduction 是從一般到特殊的 特化 specialization 過程,即從基礎原理推演出具體狀況.e.g.在數學公理系統中,基於一組公理和推理規則推導出與之相洽的定理...

周志華西瓜書筆記 第二章

2.1 經驗誤差與過擬合 錯誤率 分類錯誤的樣本佔樣本總數的比例 精度 1 錯誤率 誤差 學習器的實際 輸出與樣本的真實輸出之間的差異 訓練誤差 學習器在訓練集上的誤差 泛化誤差 在新樣本上的誤差 過擬合 過度學習樣本非主要特徵導致學習器泛化能力下降 欠擬合 未完全學習樣本的特徵 過擬合難以避免,欠...

機器學習第一章緒論(周志華西瓜書)

目錄 第一章 緒論 1.1 引言 1.2 基本術語 1.3 假設空間 1.4 歸納偏好 1.5 發展歷程 1.6 應用現狀 1.7閱讀材料 2.課後練習 由 的值是否連續分類 由是否有標記分類 最終可能會有很多與訓練集一致的假設 無法取捨 通過實際偏好來選擇 有沒有一般性原則來引導選擇正確的偏好呢?...