《統計學習方法》第一章 概論

2021-10-20 07:40:27 字數 2252 閱讀 4330

按模型分類

統計學習的分類

按模型分類

統計學習或機器學習是乙個寬泛的概念,很難有統一的分類標準。下面從幾個角度對統計學習方法進行分類。

一、監督學習

監督學習是從標註資料中學習**模型的機器學習問題。標註資料表述輸入輸出的對應關係,**模型對給定的輸入產生相應的輸出。監督學習的本質是學習輸入到輸出的對映的統計規律。

1.1 輸入空間、特徵空間和輸出空間

輸入空間與輸出空間可以是有限元素的集合,也可能是整個歐氏空間。輸入空間與輸出空間可以是同乙個空間,也可能是不同空間。通常輸出空間遠遠小於輸入空間。

輸入與輸出對通常稱為樣本點(sample)。

輸入與輸出均為連續變數的**問題稱為回歸問題,輸出變數為有限個離散變數的**問題稱為分類問題。輸入變數與輸出變數均為變數序列的問題稱為序列標註問題。

1.2 聯合概率分布

監督學習假設輸入變數與輸出變數x和y遵循聯合概率分布p(x,y),該函式表示分布函式,或者分布密度函式。注意在學習過程中,假設這一聯合分布存在。但對學習系統來說,聯合概率分布的具體定義是未知的。統計學習假設資料存在一定的統計規律,x和y具有聯合概率分布就是監督學習關於資料的基本假設。

1.3 假設空間

模型屬於由輸入空間到輸出空間的對映的集合,這個集合就是假設空間。

1.4 問題的形式化

監督學習利用訓練資料學習乙個模型。再用模型對測試樣本集進行**。由於在這個過程中,需要標註的訓練資料集,而標註的訓練資料集往往是人工給出的,所以稱為監督學習。

監督學習分為學習和**兩個過程,由學習系統和**系統完成。學習系統通過不斷的嘗試,選取最好的模型,選取最好的模型,以便對訓練資料集有足夠好的**,同時對未知的測試資料集的**也有盡可能好的推廣。

二、無監督學習

無監督學習是從無標註資料中學習**模型的機器學習問題。無標註資料是自然得到的資料,**模型表示資料的類別、轉換或者概率。無監督學習的本質是學習資料內部的統計規律或潛在結構。

無監督學習可以用來對已有資料的分析,也可以用於對未來資料的**。

三、強化學習

強化學習是智慧型系統在與環境的連續互動中學習最優行為策略的機器學習問題。假設智慧型系統與環境的互動基於馬爾可夫決策過程,智慧型系統能觀測到的是與環境互動得到的資料序列。強化學習的本質是學習最優的序貫決策。

在每一步迭代中,智慧型系統從環境中觀測到乙個狀態s與乙個獎勵r,採取乙個動作a。環境根據智慧型系統選擇的動作,決定下一步t+1的狀態s+1與獎勵r+1。要學習的策略表示為給定的狀態下採取的動作,智慧型系統的目標不是貪心的短期的獎勵最大化,而是長期累積獎勵的最大化。強化學習過程中,系統不斷地試錯,以達到學習最優策略的目的。

四、半監督學習與主動學習

半監督學習是指利用標註資料和未標註資料學習**模型的機器學習問題,通常有少量標註資料和大量未標註資料。因為標註資料的構建往往需要人工,成本較高,未標註資料的收集不需要太多成本。半監督學習旨在利用未標註資料中的資訊,輔助標註資料,進行監督學習,以較低的成本達到較好的學習效果。

主動學習是指機器不斷地主動給出例項給教師進行標註,然後利用標註資料學習**模型的機器學習問題。主動學習的目標是找出對學習最有幫助的例項讓教師標註,以較小的標註代價,達到較好的學習效果。

半監督學習和主動學習更接近於監督學習。

統計學習的模型可以分為概率模型和非概率模型或者確定性模型。在監督學習中,概率模型取條件概率分布形式p(x|y),非概率模型取函式形式y=f(x),其中x是輸入,y是輸出。

決策樹、樸素貝葉斯、隱馬爾科夫模型、條件隨機場、概率潛在語義分析、潛在迪利克雷分配、高斯混合模型是概率模型;感知機、支援向量機、k近鄰、adaboost、k均值、潛在語義分析,以及神經網路是非概率模型。邏輯斯蒂回歸既可以看作是概率模型,也可以看作是非概率模型。

條件概率分布p(x|y)和函式形式y=f(x)可以相互轉化,函式歸一化之後即可得到概率。所以,概率模型和非概率模型的區別不在於輸入與輸出之間的對映關係,而在於模型的內在結構。

概率模型的代表是概率圖模型,概率圖模型包括但不限於貝葉斯網路、馬爾科夫隨機場、條件隨機場。

非概率模型建模的函式型別,可以分為線性模型和非線性模型。

感知機、線性支援向量機、k近鄰,k均值、潛在語義分析是線性模型;

核函式支援向量機、adaboost、神經網路是非線性模型

1.貝葉斯學習

2.核方法

核方法是使用核函式表示和學習非線性模型的方法,可以用於無監督學習和監督學習。本書介紹的核函式支援向量機,核pca和核k均值屬於核方法。

定義從輸入空間到特徵空間的對映,稱為核方法。支援向量機中,把低維空間中線性不可分的樣本對映到高維空間中線性可分的過程,應用的便是核方法。

統計學習方法 第一章統計學習方法概論

1.統計學習的方法是基於資料構建統計模型從而對資料進行 與分析。統計學習由監督學習,非監督學習,半監督學習和強化學習等組成。2.輸入變數和輸出變數都是連續變數,稱為回歸問題 輸出變數為有限個離散變數的 問題為分類問題 輸入變數和輸出變數均為變數序列的 問題稱為標註問題。3.統計學習常用的損失函式 0...

第一章 統計學習方法概論

統計學習的定義 研究物件和方法 監督學習 統計學習方法的三要素 模型 策略和演算法 模型選擇 生成模型與判別模型 應用 分類 標註和回歸 統計學習 statistical learning 是關於計算機基於資料構建概論統計模型並運用模型對資料進行 與分析的一門學科。統計學習也稱為統計機器學習 sta...

第一章 統計學習方法概論

統計學習方法是基於資料構建統計模型從而對資料進行 和分析 統計學習方法由監督學習非監督學習 半監督學習和強化學習等組成。主要討論監督學習 統計學習方法步驟 有限訓練集合 確定學習模型集合 模型選擇 確定模型選擇準則 策略,損失函式確定 實現求解最優化模型演算法 演算法,梯度下降演算法選擇 最優化模型...