監督學習中需要注意的問題

2021-09-02 05:44:01 字數 759 閱讀 4926

第乙個問題就是偏見和方差之間的權衡。

較低的學習演算法偏差必須「靈活」,這樣就可以很好的匹配資料。但如果學習演算法過於靈活,它將匹配每個不同的訓練資料集,因此有很高的方差。許多監督學習方法的乙個關鍵方面是他們能夠調整這個偏差和方差之間的權衡(通過提供乙個偏見/方差引數,使用者可以調整)。

第二個問題是訓練資料可相對於「真正的」功能(分類或回歸函式)的複雜度的量。

如果真正的功能是簡單的,則乙個「不靈活的」學習演算法具有高偏壓和低的方差將能夠從乙個小資料量的學習。但是,如果真功能是非常複雜的(例如,因為它涉及在許多不同的輸入要素的複雜的相互作用,並且行為與在輸入空間的不同部分),則該函式將只從乙個非常大的數量的訓練資料,並使用可學習「靈活」的學習演算法具有低偏置和高方差。因此,良好的學習演算法來自動調整的基礎上可用的資料量和該函式的明顯的複雜性要學習的偏壓/方差權衡。

如果輸入特徵向量具有非常高的維數,學習問題是很困難的,這是因為許多「額外」的尺寸可混淆的學習演算法,並使其具有高方差。

因此,高的輸入維數通常需要調整分類器具有低方差和高偏置。

在實踐中,如果工程師能夠從輸入資料手動刪除不相關的特徵,這是有可能改善該學習功能的準確性。此外,還有許多演算法的特徵選擇,設法確定相關特徵,並丟棄不相關的。

第四個問題是在所需要的輸出值的雜訊的程度。

當沒有測量誤差(隨機雜訊),如果你正在努力學習功能,是您學習模式太複雜,你甚至可以過度擬合。在這種情況下的目標函式,該函式不能被模擬「腐化」你的訓練資料的那部分-這一現象被稱為確定性的雜訊。當任一型別的雜訊存在時,最好是去乙個更高的偏見,低方差估計。

機器學習中的有監督學習,無監督學習,半監督學習

在機器學習 machine learning 領域,主要有三類不同的學習方法 監督學習 supervised learning 非監督學習 unsupervised learning 半監督學習 semi supervised learning 監督學習 通過已有的一部分輸入資料與輸出資料之間的對應...

機器學習中的監督學習與無監督學習

在機器學習的領域,有兩類主要的任務 監督學習與無監督學習。這兩種方法上的區別在於,監督學習是使用真實的標籤來完成的,但是在無監督中,卻不存在這樣的標籤。因為這樣的特性,監督學習的目標是學習乙個函式,在已知該樣本資料與輸出值的情況下,盡最大的可能去擬合輸入與輸出的關係,無監督學習一般是推斷一組資料的內...

有監督學習 無監督學習和半監督學習的區別

1 特徵 feature 資料的特徵。舉例 書的內容 2 標籤 label 資料的標籤。舉例 書屬於的類別,例如 計算機 圖形學 英文書 教材 等。舉例 把很多書交給乙個學生,培養他給書本分類的能力。4 分類 classification 定性輸出稱為分類,或者說是離散變數 舉例 明天是陰 晴還是雨...