機器學習系列筆記(一)

2021-10-08 23:12:17 字數 1479 閱讀 1737

通俗來講,機器學習是一門致力於研究如何通過計算的手段,利用資料來改善系統自身的效能的學科。

在進行機器學習之前,我們應該提前收集一批資料作為計算機的「經驗」。

這組資料的集合稱為資料集

其中每條記錄是關於乙個事件或者物件的描述,稱為示例

在事例中反映物件的某方面屬性稱為屬性或特徵

特徵的值稱為屬性值

所有屬性的集合稱為屬性空間(樣本空間,輸入空間)

從資料中學的模型的過程稱為學習或訓練

訓練過程通常執行某個學習演算法完成。

機器學習並非學習的過程,還要有評估模型效能的測試過程

分開來講

學習過程用的資料稱為訓練資料

學習所得的模型有時被稱為學習器

部分示例擁有標記資訊,稱為樣例(比如<(眼睛=大眼,眉毛=柳葉眉,嘴巴=櫻桃小嘴),美女》

如果我們模型**的是離散值,那麼此類學習任務稱為分類

涉及兩個類別的分類任務稱為二分類,其中乙個為正類,另乙個為反類

與此對應,還有多分類

如果**的是連續值,此類任務稱為回歸

測試過程中用的樣本為測試樣本

對訓練過程中是否有標記資訊,學習分為監督學習和無監督學習

模型最終並非為了貼合訓練資料,而是在新資料中有很好的適用能力。這種能力稱為泛化

機器學習演算法在學習中對某種型別假設的偏好,稱為歸納偏好。這種偏好是必須存在的,否則會導致訓練中在看似等效的假設中搖擺不定,無法產生確切的學習結果。

(比如小明喜歡大眼睛女孩,小剛喜歡柳葉眉女孩,假如小李同時喜歡兩個方面,在判斷《小眼睛,柳葉眉,大嘴巴》這樣的新樣本時就會時而有美女的想法,時而有一般的想法。而小明和小剛則會準確的產生一般、美女的想法。訓練結果不能搖擺不定,那樣是沒有意義的。)

那麼面對現實中複雜的資料,如何引導演算法確立正確的偏好呢。

奧卡姆剃刀是一種常用的,自然科學中最基本的原則。在多個假設中選擇最簡單的

這樣產生的模型並非是最好的。

沒有免費的午餐(nfl)原則告訴我們,無論演算法a多麼糟糕,演算法b多麼優秀。他們的期望效能是相同的。

nfl的前提是所有的問題同等重要,這在現實中很難達到。nfl只是告訴我們不要脫離具體問題討論演算法的優劣。

機器學習系列筆記一 Introduction

機器學習的工作流程 機器學習演算法的傳統分類 機器學習演算法的其他分類方式 引數學習 非引數學習 以鳶尾花的資料集為例 花萼長度 花萼寬度 花瓣長度 花瓣寬度 種類5.1 3.21.4 0.2se 0 7.03.2 4.71.4 ve 1 6.33.3 62.5 vi 2 可轉換為多分類問題的任務 ...

機器學習系列筆記 五

learning 拆分為兩個問題 一 我們如何可以讓ein g 和eout g 足夠接近?二 如何讓ein g 變的越來越小?m hyposesis的大小 m比較小的時候 good,p bad 2mexp bad 很少的選擇 m比較大的時候 好的選擇,壞事情發生的機率增加 把hypotheses 分...

機器學習系列筆記 八

雜訊與錯誤 noise and error 不同錯誤適用於不同的場景 false accpet 錯誤接受 false reject 錯誤拒絕 商場打折 fbi門禁 各種情況下有不同的權重 weighted classification weighted pocket algorithm 權重口袋演算...