機器學習(西瓜書) 緒論筆記

2021-10-08 17:44:36 字數 3278 閱讀 8230

正如我們根據過去的經驗來判斷明天的天氣,吃貨們希望從購買經驗中挑選乙個好瓜,那能不能讓計算機幫助人類來實現這個呢?機器學習正是這樣的一門學科,人的「經驗」對應計算機中的「資料」,讓計算機來學習這些經驗資料,生成乙個演算法模型,在面對新的情況中,計算機便能作出有效的判斷,這便是機器學習

另一本經典教材的作者mitchell給出了乙個形式化的定義,假設:

p:電腦程式在某任務類t上的效能

t:電腦程式希望實現的任務類。

e:表示經驗,即歷史的資料集。

若該電腦程式通過利用經驗e在任務t上獲得了效能p的改善,則稱該程式對e進行了學習。

1.批關於西瓜的資料,例如(色澤=青綠;根蒂=蜷縮;敲聲=濁響), (色澤=烏黑;根蒂:稍蜷;敲聲=沉悶), (色澤=淺自;根蒂t硬挺;敲聲=清脆),……

2.訓練生成演算法模型的過程中:

3.訓練生成演算法模型後:

[2:3]

4.我們**西瓜是好是壞,即好瓜與差瓜兩種,是離散值。同樣地,也有通過歷年的人口資料,來**未來的人口數量,人口數量則是連續值。

5.我們**西瓜是否是好瓜的過程中,很明顯對於訓練集中的西瓜,我們事先已經知道了該瓜是否是好瓜,學習器通過學習這些好瓜或差瓜的特徵,從而總結出規律,即訓練集中的西瓜我們都做了標記,稱為標記資訊。但也有沒有標記資訊的情形,例如:我們想將一堆西瓜根據特徵分成兩個小堆,使得某一堆的西瓜盡可能相似,即都是好瓜或差瓜,對於這種問題,我們事先並不知道西瓜的好壞,樣本沒有標記資訊。

聚類:將訓練集中的樣本分成若干組。

:每組稱為乙個「簇」,這些自動形成的「簇」可能對應一些潛在的概念劃分。

以上概念感覺有很多是重複或者類似概念,在以後的學習中在強化記憶,更深刻的理解其中的含義。

假設:學習模型對應了關於資料的某種潛在的規律。

假設空間:學習過程可看作乙個在所有假設組成的空間中進行搜尋的過程,搜尋目標是找到能從訓練集判斷正確的假設。

也許"色澤"無論取什麼值都合適,我們用萬用字元 " * " 來表示,有可能"好瓜"這個概念根本就不成立,世界上沒有"好瓜"這種東西,我們用 ∅ 表示這個假設,這樣,若"色澤" 「根蒂」 "敲聲"分別有3、 2、 2 種可能取值,則我們面臨的假設空間規模大小為 4 x 3 x 3 + 1 = 37。

版本空間:可能存在多個假設(可能互相衝突)與訓練集一致,這一假設空間成為版本空間。

需注意的是,現實問題中我們常面臨很大的假設空間?但學習過程是基於有限樣本訓練集進行的,因此,可能有多個假設與訓練集一致,即存在著乙個與訓練集一致的"假設集合",我們稱之為"版本空間"

個人理解:假設空間是所有可能假設,版本空間是其中一部分假設,假設空間包含版本空間。

歸納偏好:機器學習演算法在學習過程中對某種型別假設的偏好。

也就是對版本假設中的哪個假設更偏好一些(prefer)。

比如從有限的訓練集中找到一條曲線,對應的學習演算法可能偏好圖1. 3 中比較"平滑"的曲線 a 而不是比較"崎嶇"的曲線 b。

但學習演算法a並不是最好的,"沒有免費的午餐"定理(nfl定理):總誤差與學習演算法無關,無論學習演算法a多聰明、學習演算法b多笨拙,它們的期望效能相同。

必須要針對具體的學習問題,在某些問題上表現好的學習演算法,在另一些問題上卻可能不盡如人意,學習演算法自身的歸納偏好與問題是否相配,往往會起到決定性的作用。

沒有最好的演算法,只有最合適的演算法

1、二十世紀五十年代到七十年代初,人工智慧研究處於"推理期",那時人們以為只要能賦予機器邏輯推理能力,機器就能具有智慧型。

2、二十世紀七十年代中期開始,人工智慧研究進入了"知識

期",簡單地說,就是由人來把知識總結出來再教給計算機,但遇到了知識工程瓶頸。

3、二十世紀八十年代以來,被研究最多、應用最廣的是"從樣例中學習" (也就是廣義的歸納學習) ,它涵蓋了監督學習、無監督學習等,本書大部分內容均屬此範疇

代表包括決策樹(參見第 4 章)和基於邏輯的學習(參見第 15 章)。

4、二十世紀九十年代中期之前,「從樣例中學習"的另一主流技術是基於神經網路的連線主義學習。

著名的 bp 演算法(參見第 5 章)。

5、二十世紀九十年代中期"統計學習」 (statistical learning) 閃亮登場並迅速佔據主流舞台,代表性技術是支援向量機 (support vector machine,簡稱svm) (參見第 6 章)以及更一般的"核方法" (kernel methods)。

6、二十一世紀初,連線主義學習又捲土重來,掀起了以"深度學習"為名的熱潮.所謂深度學習:狹義地說就是"很多層"的神經網路.在若干測試和競賽上,尤其是涉及語音、影象等複雜物件的應用中,深度學習技術取得了優越性能。

深度學習模型擁有大量引數?若資料樣本少,則很容易"過擬合"(參見第 2 章)。

1.1 表1. 1 中若只包含編號為 1 和 4 的兩個樣例?試給出相應的版本空間。

編號色澤

根蒂敲聲好瓜1

青綠蜷縮濁響是

4烏黑稍縮沉悶

否答:假設空間共:3 * 3 * 3+1=28(種)

標號為好瓜-版本空間:2 * 2 * 2 - 1=7(種)

因為要減去三種屬性值都為 * 的情況

青綠蜷縮

濁響青綠蜷縮*

青綠*濁響青綠**

*蜷縮濁響*

蜷縮***

濁響1.2 與使用單個合取式來進行假設表示相比,使用"析合正規化"將使得假設空間具有更強的表示能力.(析合正規化即多個合取式)

例如:

多包含 k 個合取式的析合正規化來表達表1. 1 西瓜分類問題的假設空間 , 試估算共有多少種可能的假設。

答:待寫

1.3 若資料報含雜訊,則假設空間中有可能不存在與所有訓練樣本都一致的假設在此情形下,試設計一種歸納偏好用於假設選擇。

答:在訓練過程中選擇最匹配的那個假設。

1.5 試述機器學習能在網際網路搜尋的哪些環節起什麼作用。

答:使用者在使用瀏覽器時會輸入關鍵字或,相應的瀏覽器給出相關的網頁,這個過程涉及到關鍵字和網頁的對映,可以使用機器學習來做。

機器學習 西瓜書(筆記一) 緒論

在機器學習中常見的基本術語包含 資料集 屬性值 屬性空間 特徵向量 訓練集 測試集等等,各自的英文表示在思維導圖中有提及。假設空間主要提及了兩種方法 歸納法和演繹法。歸納法是從特殊到一般的 泛化 演繹法是從一般到特殊的 特化 歸納偏好指的是總誤差是與學習演算法無關的,任意兩種演算法的誤差都相等。說到...

機器學習西瓜書筆記 1 緒論

書上要比別人的總結好理解的多 別人說來真覺淺,還需自己來深讀 機器學習輔助2012年美國 歐巴馬以及自動駕駛,其實都非常無比的說明 機器學習無比有前途,可以應用在生活的各個方面 機器學習正是這樣一門學科,它致力於研究如何通過計算的手段,利用經驗來改善系統自身的效能 在計算機系統中,經驗 通常以 資料...

機器學習西瓜書筆記

概念 致力於通過計算的手段,利用經驗來改善系統自身的效能。其中,經驗以資料的形式存在。基本術語 資料集 記錄的集合。示例 樣本 每條記錄,關於乙個事件或物件的描述,反應事件或物件在某方面的表現或性質的事項。屬性 特徵 一條記錄 乙個樣本由多個屬性 特徵組成。屬性值 屬性或特徵的值。示例對應於乙個座標...