機器學習西瓜書筆記 1 緒論

2022-02-24 08:05:59 字數 4120 閱讀 7102

【書上要比別人的總結好理解的多】:別人說來真覺淺,還需自己來深讀

機器學習輔助2023年美國**歐巴馬以及自動駕駛,其實都非常無比的說明【機器學習無比有前途,可以應用在生活的各個方面】機器學習正是這樣一門學科,它致力於研究如何通過計算的手段,【利用經驗來改善系統自身的效能】。

在計算機系統中,【「經驗」通常以「資料」形式存在】,因此,機器學習所研究的主要內容,是關於在計算機上從資料中產生「模型」(model)的演算法,即「學習演算法」(learning algorithm)。

如果說【電腦科學是研究關於「演算法」的學問】,那麼類似的,可以說【機器學習是研究關於「學習演算法」的學問】.例如我們把【「色澤」「根蒂」「敲聲」作為三個座標軸,則它們張成乙個用於描述西瓜的三維空間】,每個西瓜都可在這個空間中找到自己的座標位置。由於【空間中的每個點對應乙個座標向量】,因此我們也把乙個示例【稱為乙個「特徵向量」(feature vector)】。若我們欲**的是【離散值,例如「好瓜」「壞瓜」】,此類學習任務稱為【「分類」(classification)】;

若欲【**的是連續值,例如西瓜成熟度0.95、0.37】,此類學習任務稱為【「回歸」(regression)】.【我們還可以對西瓜做「聚類」(clustering),即將訓練集中的西瓜分成若干組,每組稱為乙個「簇」(cluster)】;這些自動形成的簇可能對應一些潛在的概念劃分,例如「淺色瓜」「深色瓜」,甚至「本地瓜」「外地瓜」.

【這樣的學習過程有助於我們了解資料內在的規律,能為更深入地分析資料建立基礎】.需說明的是,在聚類學習中,「淺色瓜」「本地瓜」這樣的概念我們事先是不知道的,【而且學習過程中使用的訓練樣本通常不擁有標記資訊】.

根據訓練資料是否擁有標記資訊,學習任務可大致劃分為兩大類:「監督學習」(supervised learning)和「無監督學習」(unsupervised learning),【分類和回歸是前者的代表,而聚類則是後者的代表】.generalization通常假設樣本空間中【全體樣本服從乙個未知「分布」(distribution)d,我們獲得的每個樣本都是獨立地從這個分布上取樣獲得的】,即「獨立同分布」(independent and identically distributed,簡稱i.i.d.).

一般而言,【訓練樣本越多,我們得到的關於d的資訊越多】,這樣就越有可能通過學習獲得具有強泛化能力的模型.歸納學習有狹義與廣義之分,廣義的歸納學習大體相當於從樣例中學習,而【狹義的歸納學習則要求從訓練資料中學得概念(concept)】,因此亦稱為「概念學習」或「概念形成」.

【概念學習技術目前研究、應用都比較少,因為要學得泛化效能好且語義明確的概念實在太困難了】,現實常用的技術大多是產生「黑箱」模型.然而,對概念學習有所了解,有助於理解機器學習的一些基礎思想.

【概念學習中最基本的是布林概念學習,即對「是」「不是」這樣的可表示為0/1布林值的目標概念的學習】.舉乙個簡單的例子,假定我們獲得了這樣乙個訓練資料集:

【「好瓜 (色澤=?)∩(根蒂=?)∩(敲聲=?)」】,這裡「?」表示尚未確定的取值

更一般的情況是考慮【形如(a ∩ b)∪(c ∩ d)的析合正規化】我們可以把學習過程看作乙個【在所有假設(hypothesis)組成的空間中進行搜尋的過程,搜尋目標是找到與訓練集「匹配」(fit)的假設】,即能夠將訓練集中的瓜判斷正確的假設.假設的表示一旦確定,假設空間及其規模大小就確定了.需注意的是,現實問題中我們常面臨很大的假設空間,但學習過程是基於有限樣本訓練集進行的,因此,可能有多個假設與訓練集一致,即【存在著乙個與訓練集一致的「假設集合」,我們稱之為「版本空間」(version space)】.例如,

然而,對於乙個具體的學習演算法而言,它必須要產生乙個模型.這時,【學習演算法本身的「偏好」就會起到關鍵的作用】.

例如,【若我們的演算法喜歡「盡可能特殊」的模型,則它會選擇「好瓜 (色澤=*)∩(根蒂=蜷縮)∩(敲聲=濁響)」】;但若我們的演算法喜歡「盡可能一般」的模型,並且由於某種原因它更「相信」根蒂,則它會選擇「好瓜 (色澤=*)∩(根蒂=蜷縮)∩(敲聲=*)」.

【機器學習演算法在學習過程中對某種型別假設的偏好,稱為「歸納偏好」(inductive bias)】,或簡稱為「偏好」.任何乙個有效的機器學習演算法必有其歸納偏好,【否則它將被假設空間中看似在訓練集上「等效」的假設所迷惑,而無法產生確定的學習結果】.

可以想象,如果沒有偏好,我們的西瓜學習演算法產生的模型每次在進行**時隨機抽選訓練集上的等效假設,那麼對這個新瓜「(色澤=青綠;根蒂=蜷縮;敲聲=沉悶)」,【學得模型時而告訴我們它是好的、時而告訴我們它是不好的,這樣的學習結果顯然沒有意義】.歸納偏好可看作學習演算法自身在乙個可能很龐大的假設空間中【對假設進行選擇的啟發式或「價值觀」】.

「奧卡姆剃刀」(occam's razor)是一種常用的、自然科學研究中最基本的原則,即「【若有多個假設與觀察一致,則選最簡單的那個】」.

如果採用這個原則,並且【假設我們認為「更平滑」意味著「更簡單」】(例如曲線a更易於描述,其方程式是y=-x^2+6x+1,而曲線b則要複雜得多),則在圖1.3中我們會自然地偏好「平滑」的曲線a.【對於乙個學習演算法c,若它在某些問題上比學習演算法b好,則必然存在另一些問題,在那裡b比c好】。有趣的是,這個結論對任何演算法均成立有兩個基本原因:【資料大了、計算能力強了】.深度學習模型擁有大量引數,若資料樣本少,則很容易「過擬合」;如此複雜的模型、如此大的資料樣本,若缺乏強力計算裝置,根本無法求解.【資料探勘】是【從海量資料中發掘知識,這就必然涉及對「海量資料」的管理和分析】.

大體來說,【資料庫領域的研究為資料探勘提供資料管理技術】,而【機器學習和統計學的研究為資料探勘提供資料分析技術】.

由於統計學界的研究成果通常需要經由機器學習研究來形成有效的學習演算法,之後再進入資料探勘領域,因此從這個意義上說,【統計學主要是通過機器學習對資料探勘發揮影響,而機器學習領域和資料庫領域則是資料探勘的兩大支撐】.例如他們使用機器學習技術分析社交網路資料,判斷出在**候選人第一次辯論之後哪些選民會倒戈,並根據分析的結果開發出個性化宣傳策略,能為每位選民找出乙個最有說服力的挽留理由;【他們基於機器學習模型的分析結果提示歐巴馬應去何處開展拉票活動】,有些建議甚至讓專業競選顧問大吃一驚,而結果表明去這些地方大有收穫.

【**選舉需要大量金錢,機器學習技術在這方面發揮了奇效】.例如,機器學習模型分析出,某電影明星對某地區某年齡段的特定人群很有吸引力,而這個群體很願意出**與該明星及歐巴馬共進晚餐……果然,這樣一次籌資晚宴成功募集到1500萬美元;最終,借助機器學習模型,歐巴馬籌到了創紀錄的10億美元競選經費.

【機器學習技術不僅有助於競選經費「開源」,還可幫助「節流」】,例如機器學習模型通過對不同群體選民進行分析,建議購買了一些冷門節目的廣告時段,而沒有採用在昂貴的**時段購買廣告的傳統做法,使得廣告資金效率相比2023年競選提高了14%;…….勝選後,《時代》週刊專門報道了這個被歐巴馬稱為【「競選核**」】、由半監督學習研究專家r.ghani領導的團隊.

啟示:【機器學習說不定可以很好的解決自己的所有問題】,不僅在開源方面,而且在節流方面,當然首要是學好再舉一例.車禍是人類最凶險的殺手之一,全世界每年有上百萬人喪生車輪,僅我國每年就有約十萬人死於車禍.由計算機來實現自動汽車駕駛是乙個理想的方案,【因為機器上路時可以確保不是新手駕駛、不會疲勞駕駛,更不會酒後駕駛,而且還有重要的軍事用途】.美國在二十世紀八十年代就開始進行這方面研究.這裡最大的困難是無法在汽車廠裡事先把汽車上路後所會遇到的所有情況都考慮到、設計出處理規則並加以程式設計實現,而只能根據上路時遇到的情況即時處理.若把車載感測器接收到的資訊作為輸入,把方向、剎車、油門的控制行為作為輸出,則這裡的關鍵問題恰可抽象為乙個機器學習任務.

【2023年3月,在美國darpa組織的自動駕駛車比賽中,史丹福大學機器學習專家s.thrun的小組研製的參賽車用6小時53分鐘成功走完了132英里賽程獲得冠軍】.比賽路段是在內華達州西南部的山區和沙漠中,路況相當複雜,在這樣的路段上行車即使對經驗豐富的人類司機來說也是乙個挑戰.s.thrun後來到谷歌領導自動駕駛車專案團隊.值得一提的是,自動駕駛車在近幾年取得了飛躍式發展,除谷歌外,通用、奧迪、大眾、寶馬等傳統汽車公司均投入巨資進行研發,目前已開始有產品進入市場.

【2023年6月,美國內華達州議會通過法案,成為美國第乙個認可自動駕駛車的州】,此後,夏威夷州和佛羅里達州也先後通過類似法案.自動駕駛汽車可望在不久的將來出現在普通人的生活中,而機器學習技術則起到了「司機」作用.

啟示:【機器學習是非常非常非常有前途的,學好了,什麼位置都可以用,因為它就是從資料中找規律】

機器學習(西瓜書) 緒論筆記

正如我們根據過去的經驗來判斷明天的天氣,吃貨們希望從購買經驗中挑選乙個好瓜,那能不能讓計算機幫助人類來實現這個呢?機器學習正是這樣的一門學科,人的 經驗 對應計算機中的 資料 讓計算機來學習這些經驗資料,生成乙個演算法模型,在面對新的情況中,計算機便能作出有效的判斷,這便是機器學習。另一本經典教材的...

機器學習 西瓜書(筆記一) 緒論

在機器學習中常見的基本術語包含 資料集 屬性值 屬性空間 特徵向量 訓練集 測試集等等,各自的英文表示在思維導圖中有提及。假設空間主要提及了兩種方法 歸納法和演繹法。歸納法是從特殊到一般的 泛化 演繹法是從一般到特殊的 特化 歸納偏好指的是總誤差是與學習演算法無關的,任意兩種演算法的誤差都相等。說到...

機器學習西瓜書課後習題答案 1 緒論

1.訊息推送 比如當我搜尋 機器學習 之後,再開啟某些網頁的時候,會推送有關機器學習培訓的廣告 或參考 以下是部落格的結果 1.1求版本空間 首先看版本空間的定義,這篇文章寫的很好 概況說來,版本空間就是從假設空間剔除了與正例不一致和與反例一致的假設,它可以看成是對正例的最大泛化。現在只有西瓜1和西...