什麼是機器學習?
機器學習是一門類似於人類根據生活中的經驗**之後可能會發生的結果的學科,好比我們從小可能接觸到的諺語:燕子低飛蛇過道,大雨不久就來到。在這裡,燕子低飛蛇過道就是人們在大雨前常常觀察到的一種現象,久而久之人們便發現往往出現這種現象時,馬上就會下起大雨————從而成為了人們生活中的一種經驗。而即將到來的大雨,就是我們根據經驗而產生的一種**。機器學習研究的主要內容是關於在計算機上從資料中產生「模型」的演算法,即學習演算法。
機器學習也是,機器學習是通過收集到的資料(我們所觀察到的現象),生成與之有關的模型(我們所得到的經驗),然後**相關的結果(馬上就會下的大雨)。書中官方的描述是:假設用p來評估電腦程式在某任務類t上的效能,若乙個程式通過利用經驗e在t中任務上獲得了效能上的改善,則我們就說關於t和p,該程式對e進行了學習。
基本術語:
美食大概是我們都饞涎的。以菜為例,比如說土豆燒牛肉,對於它我們可以有幾點考慮,它的材料,味道,色澤等。我們就叫它們為土豆燒牛肉的屬性或特徵。而對於(材料=土豆和牛肉,味道=外焦裡嫩,色澤=金黃)這樣一組資料,我們稱為乙個示例或者樣本,而當菜譜上所有的菜都如這樣展開時,所構成的集合我們可以稱之為資料集。在其中對於那些屬性的具體取值,稱為屬性值。屬性張成的空間我們稱之為 「屬性空間」 ,「樣本空間」 或 「輸入空間」。例如:對於土豆燒牛肉,他有三個屬性:材料,味道,色澤。我們可以以每個屬性為一條座標,生成乙個三維的座標空間。而對與菜譜中的每一道菜,我們都可以在這個形成的三維空間中找到他們各自的對應位置,因此,我們也稱每乙個示例為乙個
特徵向量。
從資料中學到模型的過程稱為 「學習」 或 「訓練」,真個過程通過執行某個學習演算法來實現。訓練過程中使用的資料稱為「訓練資料」,其中每個樣本稱之為「訓練樣本」,所有訓練樣本組成的集合稱之為「訓練集」。
學得模型對應了關於資料的某種潛在的規律,因此稱之為「假設」;這種潛在規律自身,則稱之為「真相」,學習過程就是為了找出或者逼近真相。
因為我們最終是需要做一些類似於『**』性的東西,即幫我們判斷在我們面前的菜是否可口,好吃。我們需要在之前的樣本的基礎上加上一點標註,即滿足((味道=外焦裡嫩,色澤=金黃),可口),這裡的可口叫做標記,而有標記的樣本我們稱之為樣例。而有標記的訓練集的機器學習方式我們稱之為:監督學習。相反,沒有標記的訓練集的機器學習方式稱之為:無監督學習。(分類和回歸是監督學習的代表,聚類是無監督學習的代表)
一般的,用(xi,yi)表示第i個樣例,其中yi€y,是樣本xi的標記,y是所有標記的集合,亦稱為「標記空間」(label space) 或「輸出空間」。
若我們想**的是離散值,例如:好,壞,此類學習任務稱為「分類」(classification);若想**的是連續值,例如人的身高增長程度0.95,0,28;此類學習任務稱為「回歸」(regression)。
學的模型後,使用其進行**的過程稱為「測試」(testing)。被**的樣本稱為「測試樣本」。例如在學得f後,對樣例xi,可得其**標記y=f(x).
學得模型,適用於新樣本的能力,我們稱之為 「泛化」(generalization)能力。具有強泛化能力的模型能很好的適用於整個樣本空間。
1.3 假設空間
歸納和演繹是科學推理的兩大基本手段。
歸納是乙個從特殊到一般的過程,通過從種種特殊的物件中總結出普遍認可的一般規律。
演繹是乙個從一般到特殊的過程。
從樣例中學習,顯然是乙個從特殊到一般的的歸納過程,因此亦稱為「歸納學習」(inductive learning)
歸納學習有廣義和狹義之分。廣義的歸納學習大體相當於從樣例中學習,而狹義的歸納學習則要求從訓練資料中學得概念(concept),因此又稱為「概念學習」或「概念形成」。
我們把學習過程看作是乙個在所有假設(hypothesis)組成的空間中進行搜尋的過程,搜尋目標是找到與訓練集「匹配」(fit)的假設。假設的表示一旦確認,假設空間及其規模大小就確定了。
在現實生活中,我們面臨很大的假設空間,但學習過程是基於有限樣本訓練集進行的,因此,可能有多個假設與訓練集一致,即存在著乙個與訓練集一致的「假設集合」,我們稱之為「版本空間
」(version space)。
1.4歸納偏好
對於乙個具體的學習演算法而言,它必須產生乙個模型。這時,學習演算法本身的偏好就會起到關鍵的作用。
機器學習演算法在學習過程中對於某種型別假設的偏好,稱之為「歸納偏好」(indictive bias),或簡稱「偏好」。
任何乙個有效的機器學習演算法必有其歸納偏好,否則它將被假設空間中看似在訓練集上「等效」假設所迷惑,而無法產生確定的學習結果。
歸納偏好對應了學習演算法本身所做出的關於「什麼樣的模型更好」的假設。即演算法的歸納偏好是否與問題本身匹配,大多數時候直接決定了演算法能否取得好的效能。
機器學習 基礎術語
模型 指從資料當中學到的結果 維 代表樣本具有的特徵數 特徵 樣本的某乙個明確的屬性 向量 樣本的特徵的集合 標記 對於樣本所需求得的值 分類 代表 值為離散的 回歸 代表 值為連續的 二分類任務 標記的預期值只有兩個 多分類任務 標記的預期值有多個 聚類 將訓練集中的樣本分成若干組 簇 上述聚類中...
機器學習 基礎概念 一
lstm rnn長短期記憶rnn 自編碼autoencoder 生成對抗網路gan 梯度下降 gradient descent 人體900億神經細胞組 體神經網路。神經網路的構建 可稱之人工神經元的組合,在外部刺激上不斷改變自身。人工神經網路可以分為輸入層,隱藏層 資訊的加工處理層 輸出層。中間的 ...
機器學習 深度學習概念術語的理解
neuron nerve cell,神經細胞的別稱 描述 descriptive 則被稱為 unsupervised learning,也稱為知識發現 knowledge discovery 可見節點,不可見結點 什麼是end to end神經網路?端到端,更直觀地說,對應著輸入到輸出 輸入層到輸出...