機器學習中的有監督學習,無監督學習,半監督學習

2021-06-28 16:06:50 字數 2364 閱讀 4037

在機器學習(machine learning)領域,主要有三類不同的學習方法:

監督學習(supervised learning)、

非監督學習(unsupervised learning)、

半監督學習(semi-supervised learning),

監督學習:通過已有的一部分輸入資料與輸出資料之間的對應關係,生成乙個函式,將輸入對映到合適的輸出,例如分類。

非監督學習:直接對輸入資料集進行建模,例如聚類。

半監督學習:綜合利用有類標的資料和沒有類標的資料,來生成合適的分類函式。

一、監督學習

1、監督式學習(supervised learning),是乙個機器學習中的方法,可以由訓練資料中學到或建立乙個模式( learning model),並依此模式推測新的例項。訓練資料是由輸入物件(通常是向量)和預期輸出所組成。函式的輸出可以是乙個連續的值(稱為回歸分析),或是**乙個分類標籤(稱作分類)。

2、乙個監督式學習者的任務在觀察完一些訓練範例(輸入和預期輸出)後,去**這個函式對任何可能出現的輸入的值的輸出。要達到此目的,學習者必須以"合理"(見歸納偏向)的方式從現有的資料中一般化到非觀察到的情況。在人類和動物感知中,則通常被稱為概念學習(concept learning)。

3、監督式學習有兩種形態的模型。最一般的,監督式學習產生乙個全域模型,會將輸入物件對應到預期輸出。而另一種,則是將這種對應實作在乙個區域模型。(如案例推論及最近鄰居法)。為了解決乙個給定的監督式學習的問題(手寫辨識),必須考慮以下步驟:

1)決定訓練資料的範例的形態。在做其它事前,工程師應決定要使用哪種資料為範例。譬如,可能是乙個手寫字元,或一整個手寫的詞彙,或一行手寫文字。

2)蒐集訓練資料。這資料須要具有真實世界的特徵。所以,可以由人類專家或(機器或感測器的)測量中得到輸入物件和其相對應輸出。

3)決定學習函式的輸入特徵的表示法。學習函式的準確度與輸入的物件如何表示是有很大的關聯度。傳統上,輸入的物件會被轉成乙個特徵向量,包含了許多關於描述物件的特徵。因為維數災難的關係,特徵的個數不宜太多,但也要足夠大,才能準確的**輸出。

4)決定要學習的函式和其對應的學習演算法所使用的資料結構。譬如,工程師可能選擇人工神經網路和決策樹。

5)完成設計。工程師接著在蒐集到的資料上跑學習演算法。可以借由將資料跑在資料的子集(稱為驗證集)或交叉驗證(cross-validation)上來調整學習演算法的引數。引數調整後,演算法可以執行在不同於訓練集的測試集上

另外對於監督式學習所使用的詞彙則是分類。現著有著各式的分類器,各自都有強項或弱項。分類器的表現很大程度上地跟要被分類的資料特性有關。並沒有某一單一分類器可以在所有給定的問題上都表現最好,這被稱為『天下沒有白吃的午餐理論』。各式的經驗法則被用來比較分類器的表現及尋找會決定分類器表現的資料特性。決定適合某一問題的分類器仍舊是一項藝術,而非科學。

目前最廣泛被使用的分類器有人工神經網路、支援向量機、最近鄰居法、高斯混合模型、樸素貝葉斯方法、決策樹和徑向基函式分類。

二、無監督式學習

1、無監督式學習(unsupervised learning )是人工智慧網路的一種演算法(algorithm),其目的是去對原始資料進行分類,以便了解資料內部結構。有別於監督式學習網路,無監督式學習網路在學習時並不知道其分類結果是否正確,亦即沒有受到監督式增強(告訴它何種學習是正確的)。其特點是僅對此種網路提供輸入範例,而它會自動從這些範例中找出其潛在類別規則。當學習完畢並經測試後,也可以將之應用到新的案例上。

2、無監督學習裡典型的例子就是聚類了。聚類的目的在於把相似的東西聚在一起,而我們並不關心這一類是什麼。因此,乙個聚類演算法通常只需要知道如何計算相似度就可以開始工作了。

三、半監督學習

1、半監督學習的基本思想是利用資料分布上的模型假設, 建立學習器對未標籤樣本進行標籤。

形式化描述為:

給定乙個來自某未知分布的樣本集s=l∪u, 其中l 是已標籤樣本集l=, u是乙個未標籤樣本集u=,希望得到函式f:x → y可以準確地對樣本x**其標籤y,這個函式可能是引數的,如最大似然法;可能是非引數的,如最鄰近法、神經網路法、支援向量機法等;也可能是非數值的,如決策樹分類。其中, x與x』  均為d 維向量, yi∈y 為樣本x i 的標籤, |l| 和|u| 分別為l 和u 的大小, 即所包含的樣本數。半監督學習就是在樣本集s 上尋找最優的學習器。如何綜合利用已標籤樣例和未標籤樣例,是半監督學習需要解決的問題。

2、半監督學習問題從樣本的角度而言是利用少量標註樣本和大量未標註樣本進行機器學習,從概率學習角度可理解為研究如何利用訓練樣本的輸入邊緣概率 p( x )和條件輸出概率p ( y | x )的聯絡設計具有良好效能的分類器。這種聯絡的存在是建立在某些假設的基礎上的,即聚類假設(cluster  assumption)和流形假設(maniford assumption)。

**:

有監督學習和無監督學習 無監督學習

一.無監督學習包含的演算法 聚類 kmeans聚類演算法 降維 pca 之所以叫無監督學習 是因為模型是從無標籤的資料開始學習,沒有目標值。二.kmeans聚類 1.聚類演算法步驟 定義 將高維資料轉化為低維資料的過程,在此過程中可能會捨棄原有資料,創造新的變數 作用 降低原始資料的維數 複雜度 損...

機器學習(二) 有監督學習 無監督學習和半監督學習

1 特徵 feature 資料的特徵。舉例 書的內容 2 標籤 label 資料的標籤。舉例 書屬於的類別,例如 計算機 圖形學 英文書 教材 等。舉例 把很多書交給乙個學生,培養他給書本分類的能力。4 分類 classification 定性輸出稱為分類,或者說是離散變數 舉例 明天是陰 晴還是雨...

有監督學習 無監督學習與半監督學習

這個問題可以回答得很簡單 是否有監督 supervised 就看輸入資料是否有標籤 label 輸入資料有標籤,則為有監督學習,沒標籤則為無監督學習。但根據知乎慣例,答案還是要繼續擴充套件的。首先看什麼是學習 learning 乙個成語就可概括 舉一反三。此處以高考為例,高考的題目在上考場前我們未必...