看完了西瓜書的第一章,做乙個簡單的筆記。
一、基本概念
屬性(attribute)/特徵(feature)-反映事件或物件在某方面的表現或性質的事項,屬性張成的空間稱為「屬性空間」(attribute space)/「樣本空間」(sample space)。
示例(instance)/樣本(sample)-關於乙個事件或物件的描述,每個示例由d個屬性描述可表示為
資料集(data set)-樣本組成的集合,
訓練集(training set)-訓練/學習過程中使用的資料的集合,其中每個樣本稱為乙個訓練樣本(training sample)。
假設(hypothesis)與真實(ground-truth)-學得模型對應了關於資料的某種潛在規律,這種潛在規律自身成為真實/真相,設x為樣本空間,x為樣本,y為樣本的標記,則f(x)表示希望模型學得的真實,則h(x)表示一種假設。
樣例(example)-擁有了標記(label)資訊的示例,標記是關於示例結果的資訊,一般用
分類(classification)/回歸(regression)-**的是離散值的學習任務稱為分類,**連續值的學習任務稱為回歸,只涉及兩個類別稱為二分類(binary classification),通常稱其中乙個為正類(positive class)乙個為反類(nagative class),涉及多個類別稱為多分類(multi-class classification)。
聚類(clustering)-將訓練集中的樣本分成若干組,每組稱為乙個「簇」(cluster),這些自動形成的簇可能對應一些潛在概念劃分。
根據訓練資料是否擁有標記資訊,學習任務可大致劃分為兩大類:「監督學習」(supervised learning)和「無監督學習」(unsupervised learning),分類和回歸是前者的代表,而聚類則是後者的代表。
泛化(generalization)能力-學得模型適用於新樣本的能力。
假設空間(hypothesis space)-所有假設組成的空間,對於樣本空間x,所有可能的h(x)組成的空間就是假設空間,學習過程可以看作是在假設空間內的搜尋,搜尋過程中不斷的刪除與正例不一致的假設和反例一致的假設。
版本空間(version space)-與訓練集一致的假設集合,即版本空間內所有假設在訓練集上的輸出一致。
歸納偏好(inductive bias)-學習演算法在學習過程中對某種型別假設的偏好,小概念(奧卡姆剃刀)。
nfl定理證明過程中對指示函式的求和用到了二項式定理的結論。
二、習題
1.1 模擬搜尋過程,從正例的特例開始泛化,刪除與反例相同的假設即可得到版本空間,大小為7。
1.2 不考慮冗餘時是所有假設的組合數,考慮冗餘則較難。
1.3 在匹配屬性盡可能多的情況下選擇匹配樣本多的假設。
1.4 對評估函式的求和為常數,看到這一點證明便簡單了。
1.5 輸入分類、搜尋匹配、結果分類、搜尋等環節。
筆記 機器學習第一章
機器學習方法在大型資料庫中的應用成為資料探勘data mining。模式識別應用 光學字元識別orc,人臉識別,醫學診斷,語音識別,生物測定學,從資料中學習規則 知識抽取 離群點檢測。回歸 給定一定的屬性資訊,輸出乙個結果,並從資料中獲取乙個較符合的曲線。過擬合是一定程度上過度擬合實驗數值,誤差很小...
機器學習第一章
q 什麼是機器學習 機器學習不同於以往的計算機程式設計,致力於研究如何通過計算機手段,利用以往的經驗來改善系統自身的效能。一般的程式設計都是明確的告訴電腦該做什麼。機器學習希望提供資料給學習演算法,讓它自己學習,找到其種的規律。在面對新情況的時候就能應用已產生的模型,提供相應的判斷。機器學習的本質任...
機器學習第一章
今天進行了機器學習第一章的學習,我覺得首先你可以認清這些概念 1 模型 策略 演算法 2 分類與回歸的概念 3 監督 無監督 半監督問題 2 過擬合 欠擬合 下面是拓展的一些概念 海森矩陣 黑塞矩陣 hessian matrix 又譯作海森矩陣 海瑟矩陣 海塞矩陣等,是乙個多元函式的二階偏導數構成的...