機器學習之 緒論部分

2021-07-30 03:18:45 字數 1866 閱讀 4489

緒論部分內容主要包含機器學習發展歷程的簡介,機器學習的大致介紹,以及專業術語的介紹。雖然並無具體的演算法介紹,但是對於正本書的理解大有幫助。

1. 機器學習的發展歷程:

現如今比較承認的機器學習(machine learning)的定義是:「不顯示程式設計地賦予計算機能力的研究領域」。(薩繆爾)關於機器學習的分類主要包含機械學習,示教學習,模擬學習,歸納學習。(《人工智慧手冊》)目前流行的研究領域主要是歸納學習。歸納學習也被科學家們稱作「從樣例中學習」。目前,歸納學習主要包含有:符號主義學習、連線主義學習、統計學習。其中符號主義學習主要是以決策樹和基於邏輯的學習,而連線主義和統計學習是以目前的熱門的神經網路和svm、核技術等為代表的學習方法。關於歸納學習到底應不應該進行這樣的劃分,未來機器學習的發展是否會將這些層面融合都是有意思的問題。

2. 機器學習中的術語簡介:

機器學習的理論基礎和線性代數有很大聯絡,介紹術語時必然會和線性代數有所聯絡。

2.1 資料集(data set):乙個關於事件或物件的屬性值的集合,包含多個物件,且乙個物件包含多個屬性值,由此可以構成乙個二維矩陣。

2.2 屬性(attribute)或特徵(feature):上述二維矩陣的一行可以代表一類事物的乙個屬性,比如西瓜的外皮顏色,敲聲(書中例子)

2.3 屬性值:乙個物件(樣本)的乙個屬性的取值,往往在矩陣中體現為第i行第j列的值

2.4 屬性空間(attribute space)或樣本空間(sample space): 有多個屬性組成的多維空間,如例子中顏色和敲聲可以組成二維屬性空間,每個樣本都是空間中乙個確定的點

2.5 特徵向量(feature vector)每乙個樣本所有特徵值組成的(列)向量

2.6 維數(dimensionality):特徵向量的維數

2.7 學習(learning)或訓練(training): 執行演算法進行學習歸納

2.8 訓練資料(training data)和訓練樣本(training sample)和訓練集:訓練學習過程中使用的資料叫訓練資料,其中的每個樣本稱為訓練樣本,樣本組成的集合叫訓練集(ps:訓練資料和訓練集有什麼區別嘛......)

2.9 假設(hypothesis)和真相(ground truth):資料集中真實存在的規律稱之為真相,學習得到的模型描述資料中規律稱之為假設。學習演算法的目的是使假設逼近真相。

3.0 標記(label)和標記空間(label space): 在**模型中,樣例資料中含有的"結果"稱之為標記,比如**西瓜質量,好瓜壞瓜就是樣本資料的標記,,所有標記的集合稱之為標記空間

3.1 分類(classification)和回歸(regression):在**模型中,**的值為離散型稱之為分類,連續性稱之為回歸。特別的,在離散型二分類中有正類反類的說法。

3.2 聚類(clustering):將樣本資料集進行分組稱之為聚類,注意區分聚類與分類,關鍵在於是否用到標記,分類是乙個**模型,會用到標記,而聚類則不用。

3.3 監督學習(supervised learning)和無監督學習(unsupervised learning):是否有標記資訊,分類回歸是監督學習代表,聚類為無監督學習的代表

3.4 泛化(generalization)能力:學習或訓練得到的模型能否很好的適應與整個樣本空間,簡單來說就是歸納學習得到的乙個「概念」,是否能進行很好的概括,能否很好適應新樣本資料。

3.5 假設空間:上文提到假設,假設空間就是假設的集合,比如我們通過顏色和敲聲來**西瓜好壞時,我們可以假設綠皮敲聲清脆或沉悶的瓜就是好瓜,當然我們也可以有其它假設,假設空間包含所有對於好瓜的假設。很多學習的演算法就是從假設空間中搜尋到合理的假設,得到歸納學習的模型。

3.6 版本空間(version space): 在假設空間中會有很多假設與訓練集一致,這些假設集合稱之為版本空間。

3.7 歸納偏好:既然有多個版本那應該如何進行取捨,歸納偏好就是取捨的準則。

《機器學習》之 緒論

學習的定義 對於某類任務t和效能度量p,如果乙個電腦程式在t上以p衡量的效能隨著經驗e而自我完善,那麼我們稱這個電腦程式在從經驗e中學習。設計乙個學習系統 選取訓練經驗的型別,關鍵屬性是訓練經驗能否為系統的決策提供直接或間接的反饋 學習器可以在多大的程度上控制訓練樣例序列 訓練樣例的分布能多好地表示...

機器學習筆記之緒論

1.1引言 機器學習所研究的主要內容,是關於在計算機上從資料中產生 模型 model 的演算法,即 學習演算法 learning algorithm 1.2基本術語 資料集 data set 其中每條記錄是關於乙個事件或物件的描述,稱為乙個 示例 instance 或 樣本 sample 特徵向量 ...

機器學習入門之緒論

要進行機器學習,先要有資料,假定我們收集了一批關於西瓜的資料,例如 色澤 淺白 根蒂 蜷縮 敲聲 濁響 色澤 烏黑 根蒂 硬挺 敲聲 清脆 每對括號內是一條記錄,的意思是 取值為 這組記錄的集合稱為乙個資料集 data set 其中每條記錄是關於乙個事件或物件 這裡是乙個西瓜的描述 稱為乙個 示例 ...