本章講述監督學習方法。
監督學習是從標註資料中學習模型的機器學習問題。
統計學習(statistical learning)是關於計算機基於資料構建概率統計模型並運用模型對資料進行**與分析的一門學科。統計學習也稱為統計機器學習(statistical machine learning)。
主要特點:
以計算機及網路為平台;
以資料為研究物件;
目 的是對資料進行**與分析;
以方法為中心,統計學習方法構建模型並應用模型進行**與分析;
可能的定義:
統計學習就是計算機系統通過運用資料及統計方法提高系統效能的機器學習。
資料(data)。
它從資料出發,提取資料的特徵,抽象出資料的模型,發現資料中的知識,又回到對資料的分析與**中去。
基本假設:同類資料具有一定的統計規律性。故,可以用概率統計方法處理它們。
以變數或變數組表示資料。
資料分為由連續變數和離散變數表示的型別。
這裡討論離散變數的方法為主。
對未知新資料的**與分析。
通過構建概率統計模型實現。
統計學習總的目標:
考 慮學習什麼樣的模型和如何學習模型,以使模型能對資料進行準確的**與分析,同 時也要考慮盡可能地提高學習效率。
是基於資料 構建概率統計模型 從而對資料進行 **與分析。
統計學習由監督學習(supervised learning)、無監督學習(unsupervised learning)和強化學習(reinforcement learning)等組成。
最主要的統計學習方法:監督學習、無監督學習。
統計學習方法概括:
從給定的、有限的、用於學習的訓練資料據(training data) 集 合出發,假設資料是獨 立 同 分 布產生的;
假設要學習的模型屬於某個函式的集合,稱為假設空間(hypothesis space);
應用某個砰價準則(evaluation criterion),從假設空間中選取乙個最優模型,使它對己知的訓練資料及未知的測試資料(test data)在給定的評價準則下有最優的**;
最優模型的選取由演算法實現。
即,統計學習方法包括模型的假設空間、模型選擇的準則以及模型學習的演算法。
統計學習方法的三要素:模型(model)、策略(strategy)和演算法(algorithm)。
實現統計學習方法的步驟:
(1)得到乙個有限的訓練資料集合;
(2) 確定包含所有可能的模型的假設空間,即學習模型的集合;
(3) 確定模型選擇的準則,即學習的策略;
(4) 實現求解最優模型的演算法,即學習的演算法;
(5) 通過學習方法選擇最優模型;
(6) 利用學習的最優模型對新資料進行**或分析。
包括統計學習方法、統計學習理論及統計學習應用三個方面。
(1) 統計學習是處理海量資料的有效方法。
(2) 統計學習是計算機智慧型化的有效手段。
(3) 統計學習是電腦科學發展的乙個重要組成部分。
統計學習或機器學習一般包括監督學習、無監督學習、強化學習。有時還包括半監督學習、主動學習。
監督學習
是指**從標註資料(輸入)中學習**模型(輸出)**的機器學習問題。
本質:學習輸入到輸出的對映的統計規律。
(1)輸入空間、特徵空間和輸出空間
沒看懂。
pdf p24-26.下次一定看懂。
無監督學習
是指從無標註資料中學習**模型的機器學習問題。
無標註資料是自然得到的資料,**模型表示資料的類別、轉換或概率。
輸入空間與輸出空間:模型的輸入與輸出的所有可能取值的集合。可以是有限元素集合,也可以是歐氏空間。
每個輸入是乙個例項,由特徵向量表示。每乙個輸出是對輸入的分析結果,由輸入的類別、轉換或概率表示。
具體pdf p26-27 下次一定看懂。
強化學習
是指智慧型系統在與環境的連續互動中學習最優行為策略的機器學習問題 。
如下圍棋的機械人。
p27-29.一旦涉及數學公式就複雜了起來,下次一定。
半監督學習與主動學習
半監督學習:是指利用標註資料和未標註資料學習**模型的機器學習問題。
通常有少量標註資料、大量未標註資料。
旨在:以較低的成本達到較好的學習效果。
主動學習:是指機器不斷主動給出例項讓教師進行標註,然後利用標註資料學習**模型的機器學習問題。
目標:找出對學習最有幫助的例項讓教師標註,以較小的標註代價,達到較好的學習效果。
半監督學習和主動學習更接近監督學習。
概率模型與非概率模型
線性模型與非線性模型
引數化模型與非引數化模型
p 29-30;下次一定。
批量學習:一次接受所有資料,學習模型,之後進行預
測。貝葉斯學習
稱為貝葉斯推理。
主要想法:
在概率模型的學習和推理中,利用貝葉斯定理,計算在給定資料條件下模型的條件概率,即後驗概率,並應用這個原理進行模型的估計,以及對資料的**。
p31-32;
核方法是使用核函式 表示和學習 非線性模型的一種機器學習方
法,可以用於監督學習和無監督學習。
有一些線性模型的學習方法基於相似度計算,更具體地,向量內積計算。核方法可以把它們擴充套件到非線性模型的學習,使其應用範圍更廣泛。
把線性模型擴充套件到非線性模型的直接做法:顯式地定義從輸入空間(低維空間)到特徵空間(高維空間)的對映,在特徵空間中進行內積計算。
核方法的技巧:在於不顯式地定義這個對映,而是直接定義核函式,即對映之後在特徵空間的內積。
方法=模型+策略+演算法。模型
策略演算法
p33-37;
統計學習方法 第一章統計學習方法概論
1.統計學習的方法是基於資料構建統計模型從而對資料進行 與分析。統計學習由監督學習,非監督學習,半監督學習和強化學習等組成。2.輸入變數和輸出變數都是連續變數,稱為回歸問題 輸出變數為有限個離散變數的 問題為分類問題 輸入變數和輸出變數均為變數序列的 問題稱為標註問題。3.統計學習常用的損失函式 0...
統計學習方法筆記 第一章統計學習方法概論
統計學習方法第一章筆記 赫爾伯特 西蒙曾經對學習下定義 如果乙個系統能夠通過執行某個過程改進它的效能,這就是學習。現在人們提到的機器學習就是統計機器學習。統計學習包括監督學習 supervised learning 非監督學習 unsupervisedlearning 半監督學習 semi supe...
統計學習方法 第一章
1.統計學習的特點 2.統計學習的物件 對資料的基本假設 同類資料具有一定的統計規律性 3.統計學習的目的 4.統計學習方法 1.基本概念 x x 1,x 2,x i x n t x i x i 1 x i 2 x in t t x 1 y 1 x 2 y 2 x n y n 2.聯合概率分布 3....