《機器學習》 第一章 緒論 學習筆記

2022-09-07 21:27:22 字數 3353 閱讀 8552

機器學習所研究的主要內容,是關於在計算機上從資料中產生「模型」(model)的演算法,即「學習演算法」(learning algorithm)。

反映事件或物件在某方面的表現或性質的事項,稱為「屬性」(attribute)或「特徵」(feature);

屬性上的取值稱為「屬性值」(attribute value);

屬性張成的空間稱為「屬性空間」(attribute space)、「樣本空間」(sample space)或「輸入空間」。

由於空間中的每個點對應乙個座標向量,因此我們也把乙個示例稱為乙個「特徵向量」(feature vector)。

一般地,d=表示包含m個示例的資料集,每個示例由d個屬性描述,則每個示例xi=(xi1,xi2,…,xid)是d維樣本空間x中的乙個向量,xi∈x,其中xij是xi在第j個屬性上的取值,d稱為樣本xi的「維數」(dimensionality)。

從資料中學得模型的過程稱為「學習」(learning)或「訓練」(training);

訓練過程中使用的資料稱為「訓練資料」(learning data),其中每個樣本稱為乙個「訓練樣本」(training sample);

訓練樣本組成的集合稱為「資料集」(training set)。

學得模型對應了關於資料的某種潛在的規律,因此亦稱「假設」(hypothesis);

這種潛在規律自身,則稱為「真相」或「真實」(ground-truth),學習過程就是為了找出或逼近真相。

有時將模型稱為「學習器」(learner),可看作學習演算法在給定資料和引數空間上的例項化。

關於示例結果的資訊,稱為「標記」(label);

擁有了標記資訊的示例稱為「樣例」(example)。

一般地,用(xi,yi)表示第i個樣例,其中yi∈y是示例xi的標記,y是所有標記的集合,亦稱「標記空間」(label space)或「輸出空間」。

若將標記看作物件本身的一部分,則「樣例」有時也稱為「樣本」。

若**的是離散值,此類學習任務稱為「分類」(classification);

若**的是連續值,此類學習任務稱為「回歸」(regression)。

對只涉及兩個類別的「二分類」(binary classification)任務通常稱其中乙個為「正類」(positive class),另乙個類為「反類」(negative class);

涉及多個類別時,則稱為「多分類」(multi-class classification)任務。

一般地,**任務是希望通過對訓練集進行學習,建立乙個從輸入空間x到輸出空間y的對映f:x—>y。

對二分類任務,通常令y=或;

對多分類任務,|y|>2;

對回歸任務,y=r,r是實數集。

學得模型後,使用其進行**的過程稱為「測試」(testing),被**的樣本稱為「測試樣本」(testing sample)。

聚類(clustering),即將訓練集分成若干組,每組稱為乙個「簇」(cluster);

這些自動形成的簇可能對應一些潛在的概念劃分。

這樣的學習過程有助於我們了解資料內在的規律,能為更深入地分析資料建立基礎;

需說明的是,在聚類學習中,潛在的概念事先是不知道的,而且學習過程中使用的訓練樣本通常不擁有標記資訊。

根據訓練資料是否擁有標記資訊,學習任務可大致劃分為兩大類:「監督學習」(supervised learning)和「無監督學習」(unsupervised learning),分類和回歸是前者的代表,而聚類是則是後者的代表。

機器學習的目標是使學得的模型能很好地適用於「新樣本」,而不是僅僅在訓練樣本上工作的很好;即便對聚類這樣的無監督學習任務,也希望學得的簇劃分能適用於沒在訓練集**現的樣本。

學得模型適用於新樣本的能力,稱為「泛化」(generalization)能力。

具有強泛化能力的模型能很好地適用於整個樣本空間。

通常假設樣本空間中全體樣本服從乙個未知「分布」(distribution)d,獲得的每個樣本都是獨立地從這個分布上取樣獲得的,即「獨立同分布」(independent and identically distributed,簡稱i.i.d.)。

一般而言,訓練樣本越多,得到的關於d的資訊越多,這樣就越有可能通過學習獲得具有強泛化能力的模型。

歸納(induction)與演繹(deduction)是科學推理的兩大基本手段,

前者是從特殊到一般的泛化(generalization)過程,即從具體的事實歸結出一般性規律;

後者則是從一般到特殊的「特化」(specialization)過程,即從基礎原理推演出具體狀況。

歸納學習有狹義和廣義之分,

廣義的歸納學習大體相當於從樣例中學習;

而狹義的歸納學習則要求從訓練資料中學得概念(concept),因此亦稱為「概念學習」或「概念形成」。

概念學習中最基本的是布林概念學習。

把學習過程看作乙個在所有假設(hypothesis)組成的空間中進行搜尋的過程,搜尋目標是找到與訓練集「匹配」(fit)的假設。

機器學習演算法在學習過程中對某種型別假設的偏好,稱為「歸納偏好」(inductive bias),或簡稱為「偏好」。

任何乙個有效的機器學習演算法必有其歸納偏好,否則它將被假設空間中看似在訓練集上「等效」的假設所迷惑,而無法產生確定的學習結果。

歸納偏好可看作學習演算法自身在乙個可能很龐大的假設空間中對假設進行選擇的啟發式或「價值觀」。

「奧卡姆剃刀」(occam』s razor)是一種常用的、自然科學研究中最基本的原則,即「若有多個假設與觀察一致,則選最簡單的那個」。

「沒有免費的午餐」定理(no free lunch theorem),簡稱nfl定理。

nfl定理有乙個重要前提:所有「問題」出現的機會相同、或所有問題同等重要。

國際機器學習會議(icml)

國際神經資訊處理系統會議(nips)

國際學習理論會議(colt)

歐洲機器學習會議(ecml)

亞洲機器學習會議(acml)

journal of machine learning research

machine learning

ijcai

aaai

artificial intelligence

journal of artificial intelligence research

kddicdm

acm transactions on knowledge discovery from data

data mining and knowledge discovery

cvpr

neural computation

ieee transactions on networks and learning systems

annals of statistics

中國機器學習大會(ccml)

「機器學習及其應用」研討會(mla)

《機器學習》 第一章 緒論 學習筆記

機器學習所研究的主要內容,是關於在計算機上從資料中產生 模型 model 的演算法,即 學習演算法 learning algorithm 反映事件或物件在某方面的表現或性質的事項,稱為 屬性 attribute 或 特徵 feature 屬性上的取值稱為 屬性值 attribute value 屬性...

《機器學習》筆記 第一章緒論

p9 學習演算法自身的 歸納偏好 與問題是否相配,往往會起到決定性作用。1.5發展歷程 人工智慧的研究程序 推理期 知識期 學習期 從樣例中學習 也即是廣義的歸納學習 它涵蓋了監督學習 無監督學習等,本書大部分內容均屬於此範疇。從樣例中學習,從基於邏輯的符號學習 基於神經網路的連線主義學習 統計學習...

機器學習筆記 第一章緒論

第一章緒論 1引言1.1問題 1 通過計算的手段,利用經驗來改善系統自身的效能 2 有了資料 3 通過某種學習演算法 4 得到模型 5 進行 2基本術語 2.1有了資料 1 資料集 100個西瓜 2 樣本 1個西瓜 3 特徵向量 1 樣本空間 2 顏色 大小 敲起來的振幅 3 維度 4 屬性 顏色2...