機器學習 周志華(內容整理)

2021-08-14 23:34:44 字數 1272 閱讀 4076

1.機器學習正是這樣得一門學科,它致力於研究如何通過計算的手段,利用經驗來改善系統自身的效能。在計算機系統中,「經驗」通常以「資料」形式存在,因此,機器學習所研究的主要內容,是關於在計算機上從資料中產生「模型」的演算法,即「學習演算法」。有了學習演算法,我們把經驗資料提供給它,它就能基於這些資料產生模型;在面對新的情況的時候,模型會給我們提供相應的判斷。如果說電腦科學是研究關於「演算法」的學問,那麼類似的,可以說機器學習是研究關於「學習演算法」的學問。

2.歸納(induction)和演繹(deduction)是科學推理的兩大基本手段。前者是從特殊到一般的「泛化」(generalization)過程,即從具體的事實歸結出一般性規則;後者則是從一般到特殊的「特化」(specialization)過程,即從基礎原理推演出具體狀況。例如,在數學公理系統中,基於一組公理和推理規則推導出與之相洽的定理,這是演繹;而「從樣例中學習」顯然是乙個歸納的過程,因此亦稱「歸納學習(inductive learning)。

歸納學習由廣義和狹義之分,廣義的歸納學習大體相當於從樣例中學習,而狹義的歸納學習則要求從訓練資料中學的概念,因此稱為「概念學習」或「概念」形成。概念學習技術目前研究、應用都比較少,因為要學得泛化效能好且語義明確得概念確實太困難了,現實常用的技術大多數是產生「黑箱」模型。

根據訓練資料是否擁有標記資訊,學習任務可大致分為兩大類:「監督學習」(supervised learning)和「無監督學習」(unsupervised learning),分類和回歸是前者的代表,而聚類是後者的代表。

3.特徵分析是從一組資料中提取出關於這些資料的特徵式,這些特徵式表達了該資料集的總體特徵。例如營銷人員通過對客戶流失因素的特徵提取,可以得到導致客戶流失的一系列原因和主要特徵,利用這些特徵可以有效地預防客戶的流失。

4.運算元(operator)通常指在解決問題中進行的各種操作,人們利用各種運算元來改變問題的起始狀態,經過各種中間狀態,逐步達到目標狀態,從而解決問題。

在fusioninsight miner中,運算元代表某個資料處理子步驟,它遮蔽了程式設計細節,直接在編碼介面拖拽運算元圖示、連線運算元和修改運算元屬性,即可實現對資料的匯入、匯出、轉換等處理。

nfl(no free lunch)定理,翻譯過來就是「沒有免費午餐」定理,收的是在機器學習中,沒有給定具體問題的情況下,或者說面對的是所有問題的情況下,沒有一種演算法能說得上比另一種演算法好。換成我們的俗話講,就是「不存在放之四海而皆準的方法」。只有在給定某一問題,比如說給「用特定的資料集給西瓜進行分類」,才能分析並指出某一演算法比另一演算法好。這就要求我們具體問題具體分析,而不能指望找到某個演算法後,就一直指望著這個「萬能」的演算法。這大概也是no free lunch名字的由來吧。

機器學習周志華筆記

1,監督學習 分類 回歸 無監督學習 聚類 2,決策樹 根據資訊增益的大小來確定節點 資訊熵 描述事務確定性程度的值 需要多少個bit來描述資訊 ent d pklog2pk 資訊增益 資訊熵 某個屬性劃分的平均資訊熵 該屬性劃分純度 3,支援向量機中對超平面的理解 劃分超平面用以下線性方程表示 w...

周志華 機器學習 筆記

學習演算法自身的歸納偏好與問題是否相配,往往會起到決定作用。對於上面這句話 你的輸入資料被怎麼處理,最終得到什麼結果,我認為偏好指的就是這個處理的過程。線性非線性?那些feature忽略掉?怎麼利用這些資料?更具體一些,你用網路處理,還是傳統方法,資料的分布和你的處理方法相符嗎?沒有免費的午餐定理 ...

《周志華機器學習》簡要

分類和回歸 奧卡姆剃刀 若有多個假設與觀察一致,則選擇簡單的那個 評估方法 效能度量 偏差與方差 距離 最小二乘法 與mse均方差含義有些類似。基於mse最小化來進行模型求解的方法稱為最小二乘法 lda 線性判別分析。給定訓練樣例集,設法將樣例投影到一條直線上,同類樣例投影點盡可能接近,不同類盡可能...