機器學習的主要挑戰

2022-08-11 20:54:13 字數 774 閱讀 3709

資料方面

1、訓練資料的數量不足

2、訓練資料不具代表性

由於最終我們要實現泛化,如果使用不具代表性的訓練集訓練出來的模型不可能做出準確的預估。因此使用具有代表性的訓練集至關重要,不過做起來是很難的。如果樣本集太小,將會出現取樣雜訊(即非代表性資料被選中);而即便是非常大的樣本資料,如果取樣方式欠妥,也同樣可能導致非代表性資料集,這就是取樣偏差

3、質量差的資料

4、無關特徵

乙個成功的機器學習專案,關鍵部分是提取出一組好的用來訓練的特徵集,這個過程叫做特徵工程,包括以下幾點。

演算法方面

1、過度擬合

模型在訓練資料上表現良好,但是泛化時卻不盡如人意。

諸如深度神經網路這類的複雜模型可以檢測到資料中的微小模式,如果訓練集本身是嘈雜的,或者資料集太小(會導致取樣雜訊),那麼很可能會導致模型檢測雜訊裡的模式。顯然,這些模式不能泛化至新的例項。

當模型相對於訓練資料的數量和噪度都過於複雜時,會發生過度擬合。可能的解決方案如下。

收集更多的訓練資料

減少訓練資料中的雜訊(修復錯誤資料、消除異常值)

通過約束模型使其更簡單,並降低過度擬合的風險,這個過程稱為正則化。在學習時,應用正則化的程度可以通過乙個超引數控制。超引數是學習演算法(不是模型)的引數。它必須在訓練之前設定好,並且在訓練期間保持不變。

2、擬合不足

擬合不足和過度擬合正好相反,它的產生通常是因為模型太過簡單。解決這個問題的主要方式有:

機器學習主要術語

什麼是 監督式 機器學習?簡單來說,它的定義如下 下面我們來了解一下機器學習的基本術語。在簡單線性回歸中,標籤是我們要 的事物,即 y 變數。標籤可以是小麥未來的 中顯示的動物品種 音訊剪輯的含義或任何事物。在簡單線性回歸中,特徵是輸入變數,即 x 變數。簡單的機器學習專案可能會使用單個特徵,而比較...

三 機器學習之路 機器學習主要類別

機器學習的主要技術分為以下三個方向 監督學習 無監督學習 強化學習。下面分別來介紹這幾種技術。監督學習 supervised learning 監督學習的問題可以分為兩類 回歸 regression 分類 classification 回歸 regression 回歸問題中,回歸的目標是給定輸入變數...

分布式機器學習主要筆記

mahout是hadoop的乙個機器學習庫,主要的程式設計模型是mapreduce 每個企業的資料都是多樣的和特別針對他們需求的。然而,在對那些資料的分析種類上卻沒多少多樣性。mahout專案是實施普通分析計算的乙個hadoop庫。用例包括使用者協同過濾 使用者建議 聚類和分類。mllib 執行在s...