周志華機器學習
flyu6
time: 2016-6-12
假設空間
歸納偏好
監督學習
所謂的監督學習其實就是在資料集d中有格式為 *(x,y)*的形式,可以看出我們有明確的目標值或者標籤(y)與x的資料集有關關聯關係。我們可以通過尋找x與y的關係來確定乙個關係化的模型。在這個模型的學習中,我們是通過真是的y值來不斷調整真個模型的引數的。在監督學習的過程中,我們又可以根據資料的存在方式分為分類與回歸兩種方式:
當然,在這裡面我們涉及到兩個過程,其中尋找模型的的過程叫做訓練,使用到的的資料集叫做訓練集。而在使用訓練好的模型來驗證準確率(精確率)的過程叫做測試,使用的資料集叫做測試集。
無監督學習
無監督學習與監督學習最直觀的區別在於監督學習的資料集格式為(x,y),而非監督學習的資料集格式為(x)。直白的說就是非監督學習沒有目標值。而非監督學習的主要目標是從x的資料集中學習出資料的「內在」結構。在無監督學習中,最實用也是最具代表性的方法就是聚類(cluster)。
例如我們可以尋找一群人(黃種人裡面),每個人都有一些資料來描述(口音,飲食偏好,...)等,那麼我們通過這些特徵,我們就可以粗略的得出不同的簇(cluster)。而這些簇的概念是通過機器學習的方式自動形成的可能對應一些潛在的概念。在這個例子中我們根據提供的資料就可以簡單的推斷出到底是北方人還是南方是或者是那個省份的人。這就是聚類。我們可以通過資料將其具有相似結構的資料放在乙個簇裡面。
當然,正常的時間中,監督學習和非監督學習之間還存在一種半監督學習(semi-supervised)。
在測試過程中,我們希望的是精確率越高越好,但是,在這個過程中,我們還需要學得的模型具有很好的「泛化能力」。也就是說,我們的模型不應該只是僅僅在訓練集、測試集上有很好的**能力,同時還要求這個模型對新產生的資料或者新來的資料具有較好的**能力,這就是所謂的泛化。
induction and deduction 是科學推理的兩大基本手段。
歸納
從特殊到一般的「泛化」(generalization)的過程叫歸納,即從具體的事實歸結出一般性規律例子,從樣例中學習出乙個模型,這樣的過程就是乙個歸納的過程。也叫作「歸納學習」。
演繹
從一般到特殊的「特化」(specialization)的過程,即從基礎原理忒遠出具體狀況。例如,在數學公里系統中,基於一組公理和推理規則推導出與之相洽的定理,這就是演繹。
其實也就是過擬合(overfiting)和 underfiting(欠擬合)的問題。這也是對我們訓練出來的模型是否能很好的適應新來的資料集得過程。
奧卡姆剃刀(occam's razor)
若有多個假設與觀察一致,則選擇最簡單的哪個。
證明1證明2
機器學習 學習筆記 1
一 問題的引入 回歸分析大多屬於監督學習的一種方法。這種方法主要是根據從貼有便簽的理算資料通,通過統計等方法得到數學模型,然後將模型運用於 或者分類。通常是多維的,如果存在高維空間時,可通過核函式等方法優化處理。例如房屋的價錢和很多因素有關,而每乙個因素也成為乙個維度。這裡和多臂 問題 multi ...
機器學習 學習筆記1
什麼是機器學習?監督學習 supervised learning 如神經網路,提供資料和資料的標籤進行訓練 非監督學習 unsupervised learning 只提供資料而不提供對應的標籤進行訓練 半監督學習 利用少量有標籤樣本和大量無標籤樣本進行訓練,來對無標籤樣本進行分類 強化學習 rein...
機器學習筆記 1
1 機器學習的定義 如果乙個程式可以在任務t上,隨經驗e的增加,效果p隨之增加,則這個程式可以從經驗中學習。過程 單個神經元 2 基於tensorflow的nn 神經網路 用張量表示資料,用計算圖搭建神經網路,用會話執行,優化線上的權重 引數 得到模型。2.1 張量 多維陣列 列表 階 表示張量的維...