第一章 緒論
1.1引言
機器學習致力於研究如何通過計算的手段,利用經驗來改善系統自身的效能
機器學習所研究的主要內容,是關於在計算機上從資料中產生「模型」的演算法,即「學習演算法」
「模型」泛指從資料中學得的結果
1.2基本術語
資料 資料集 示例/樣本/特徵向量 屬性/特徵 屬性值 屬性空間/樣本空間/輸入空間 維數 學習/訓練 訓練資料 訓練樣本 訓練集 假設 真相/真實 學習器 樣例 標記空間/輸出空間 分類 回歸 正類 反類 多分類 測試 測試樣本 聚類 簇 監督學習 無監督學習 泛化 分布
1.3假設空間
歸納學習
廣義的歸納學習大體相當於從樣例中學習,狹義的歸納學習則要求從訓練資料中學得概念,因此亦稱為「概念學習」或「概念形成」
可能有多個假設與訓練集一致,即存在著乙個與訓練集一致的「假設集合」,稱之為「版本空間」
1.4歸納偏好
機器學習演算法在學習過程中對某種型別假設的偏好,稱為「歸納偏好」,簡稱為「偏好」
「奧卡姆剃刀」是一種常用的,自然科學研究中最基本的原則,即「若有多個假設與觀察一致,則選最簡單的那個」
「沒有免費的午餐」定理(nfl定理):由於對所有可能函式的相互補償,最優化演算法的效能是等價的。該定理暗指,沒有其它任何演算法能夠比搜尋空間的線性列舉或者純隨機搜尋演算法更優。該定理只是定義在有限的搜尋空間,對無限搜尋空間結論是否成立尚不清楚。
nfl定理有乙個重要前提:所有問題出現的機會相同或者所有問題同等重要
nfl定理最重要的寓意,是讓我們清楚地認識到,脫離具體問題,空泛的談論什麼學習演算法最好毫無意義
1.5發展歷程
機器學習劃分為「機械學習」「示教學習」「模擬學習」「歸納學習」
符號主義學習,其代表包括決策樹和基於邏輯的學習(著名代表是歸納邏輯程式設計ilp)
基於神經網路的連線主義學習 「黑箱」模型 bp演算法
統計學習,代表技術是支援向量機(svm)以及更一般的「核方法」
深度學習,狹義地說就是很多層的神經網路
1.6應用現狀
計算機視覺,自然語言處理
機器學習周志華筆記
1,監督學習 分類 回歸 無監督學習 聚類 2,決策樹 根據資訊增益的大小來確定節點 資訊熵 描述事務確定性程度的值 需要多少個bit來描述資訊 ent d pklog2pk 資訊增益 資訊熵 某個屬性劃分的平均資訊熵 該屬性劃分純度 3,支援向量機中對超平面的理解 劃分超平面用以下線性方程表示 w...
周志華 機器學習 筆記
學習演算法自身的歸納偏好與問題是否相配,往往會起到決定作用。對於上面這句話 你的輸入資料被怎麼處理,最終得到什麼結果,我認為偏好指的就是這個處理的過程。線性非線性?那些feature忽略掉?怎麼利用這些資料?更具體一些,你用網路處理,還是傳統方法,資料的分布和你的處理方法相符嗎?沒有免費的午餐定理 ...
周志華機器學習筆記(一)
新人一枚,既是機器學習的初學者,也是首次發部落格。謹以此記錄我的學習體會,做一些總結。望與大家共同學習 共同進步。文中若有內容錯誤或有措詞不嚴謹之處,望大家不吝指出。謝謝!根據上圖我們可以用乙個三維空間來了解以下幾個基本術語。屬性與屬性值 屬性反映事件或物件在某方面的表現或性質的事項,在此圖表示為軸...