一.機器學習(machine learning)
1.它致力於研究如何通過計算的手段,利用經驗來改善系統自身的效能
2.研究的主要內容是學習演算法(learning algorithm)(在計算機上從資料中產生模型(model)或者說學習器(learner)的演算法)
3.簡而言之,機器學習:根據已有的經驗(舊的資料),生成乙個包含引數的學習模型,要求面對新的情況時(新的資料),該學習模型能表現良好
4.假設用 p 來評估電腦程式在某任務類 t 上的效能,若乙個程式通過利用經驗 e 在 t 中任務上獲得了效能改善,則我們就說關於 t 和 p ,該程式對 e 進行了學習
二.基本術語
1.關於資料
(1)特徵向量(feature vector)、樣本(sample)、示例(instance)、記錄:對於乙個事件或物件的描述
(2)資料集:記錄的集合
(3)特徵(feature)、屬性(attribute):反映事件或物件在某方面的表現或性質的事項
(4)屬性空間、樣本空間、輸入空間:屬性張成的空間
(5)例:d=表示乙個關於西瓜的資料集,其中有兩個樣本,有三個屬性,屬性空間是以三個屬性(色澤,根蒂,敲聲)為三個座標軸張成的三圍空間
(6)標記(label):關於示例結果的資訊,
(7)樣例(example):擁有標記資訊的示例
(8)輸出空間、標記空間(label space):所有標記張成的空間
(9)例:d=表示乙個關於西瓜的資料集,其中有兩個樣例,有三個屬性,有兩種標記,這兩個標記的集合也被稱為標記空間
2.關於訓練:根據訓練資料學習演算法
(1)學習(learning)、訓練(training):從資料中學的模型的過程,通過執行某個學習演算法來完成,訓練時對應有訓練集,訓練資料,訓練樣本
(2)假設(hypothesis):學的模型對應了關於資料的某種潛在規律
(3)真相、真實(ground-truth):潛在規律自身
3.關於**:根據模型,測試新資料
(1)測試(testing):學的模型後,使用其進行**的過程
(2)測試樣本(testing sample)、測試示例、測試例:被**的樣本
4.經驗風險最小化:檢查多個樣本並嘗試找出可最大限度地減少損失的模型
5.損失:是對糟糕**的懲罰,是乙個數值,表示對單個樣本而言模型**的準確程度
(1)如果模型**完全準確,則損失為0
(2)線性回歸訓練模型的目標是從所有樣本中找出一組平均損失較小的權重和偏差
(3)損失函式:l1損失:基於模型**的值與標籤的實際值之差的絕對值;平方損失(l2損失):每個樣本的平均平方損失(均方誤差mse)
三.機器學習的分類
1.監督學習(supervised learning):訓練資料有標記資訊
(1)分類:標記資訊呈現離散狀態。knn、樸素貝葉斯、邏輯回歸、隨機森林、支援向量機、決策樹、神經網路
(2)回歸:標記資訊呈現的是連續值。線性回歸、adaboost、gradient boosting、神經網路
2.無監督學習(unsupervised learning):訓練資料無標記資訊,給定一些資料,自動找出資料的結構、規律,關聯規則的抽取
(1)聚類:自動對資料進行分類,手動給定類的標記,
3.半監督學習(semi-supervised learning):是監督學習與無監督學習相結合的一種學習方法。使用大量未標記的資料以及少量標記資料。
4.強化學習 (reinforcement learning, rl):解決計算機從感知到決策控制的問題,強調基於環境而行動,已取得最大化利益,一般用於需要連續決策的領域。
四.機器學習的目標
1.使學得的模型能很好的適用於新樣本,而不僅僅在訓練樣本上工作的很好
2.泛化(generalization)(從特殊到一般):學得模型的適用於新樣本的能力
3.一般來說,訓練樣本越多,得到的資訊越多,越有可能得到強泛化能力的樣本
五.假設空間
1.歸納學習:從具體的事實歸結出一般性規律
2.機器學習是從樣本中學習,顯然是歸納學習
3.假設空間:所有假設組成的空間,通常來說特別大,比如三個屬性分別有3,3,4種可能取值,則面臨的假設空間規模為:4*4*5+1=81,(因為要加上∅)
4.版本空間:可能有多個假設與訓練集一致,則存在乙個與訓練集一致的『假設集合『,稱之為版本空間
六.歸納偏好
1.歸納偏好(inductive bias):機器學習演算法在學習過程中對某種型別假設的偏好
2.比如:存在多個模型能反映訓練樣本,但是他們對於新的樣本卻又不同的輸出,表示不同模型對不同假設的偏好
3.奧卡姆剃刀原則(occam's razor):若有多個假設與觀察一致,則選最簡單的那個
4.『沒有免費的午餐』定理(no free lunch theorem)(nfl):在所有問題同等重要的情況下,無論學習演算法怎樣,他們的期望效能相同
5.總結:要結合具體的問題,對比學習演算法的效能,因為在某些問題上表現良好的學習演算法,在其他問題上可能表現很糟糕
機器學習簡介
機器學習簡介 機器學習是人工智慧的乙個分支。人工智慧的研究是從以 推理 為重點到以 知識 為重點,再到以 學習 為重點,一條自然 清晰的脈絡。顯然,機器學習是實現人工智慧的乙個途徑,即以機器學習為手段解決人工智慧中的問題。機器學習在近30多年已發展為一門多領域交叉學科,涉及概率論 統計學 逼近論 凸...
機器學習 簡介
機器學習,即人工智慧的乙個分支,人工智慧目前具有一定的限制,無法突破強人工智慧,即無法像人類一樣思考,感受等。機器學習其實就是通過大量的資料輸入,找出符合資料集的演算法模型,在輸入新的資料集時在進行判斷其屬性,是數學 計算機和統計學的集合。類似於人類的學習經驗,使用經驗判斷的過程。機器學習在於區分和...
機器學習簡介
機器學習101 在這篇博文中,我們將從以下幾個方面簡要地向大家介紹一下機器學習。如果你不是這方面的專家,也不需要擔心,因為在這篇博文中談及的內容僅需要高中的數學知識就足夠了。什麼是機器學習?牛津詞典將機器學習定義為 the capacity of a computer to learn from e...