如何避免維度災難與過擬合

2022-06-13 07:21:12 字數 317 閱讀 3939

簡而言之,當訓練樣本數量不變,分類器效能會隨著選取的特徵維度的增大先增大後減小,也就是說只有在特徵維度數量和樣本數量穩定在一定範圍內,分類器效能才會最優,但目前沒有什麼固定的方法去計算二者之間的關係。

過擬合就是當訓練樣本數量不變,分類器效能隨著特徵維度增大而減小,直觀的體現就是測試訓練樣本分數很高,一旦測試新資料分數就下降。

如何避免維度災難?

那些對於非線性邊界能擬合很好的分類器一般泛化性比較差,而且容易過擬合。所以當使用這些分類器時,特徵的數量盡量保持小些(如神經網路、knn、決策樹等)。如果使用一些易泛化的分類器,那麼特徵數可以用多些(如樸素貝葉斯、線性分類器等)

維數災難與過擬合

一.引言 這裡我們將要討論所謂的 維數災難 同時結合過擬合現象來解釋它在分類器學習中的重要性。舉乙個分類應用的簡單例子,假設我們有一系列的,每張的內容可能是貓也可能是狗 我們需要構造乙個分類器能夠對貓 狗自動的分類。首先,要尋找到一些能夠描述貓和狗的特徵,這樣我們的分類演算法就可以利用這些特徵去識別...

過擬合 欠擬合及避免方法

在我們機器學習或者訓練深度神經網路的時候經常會出現欠擬合和過擬合這兩個問題,但是,一開始我們的模型往往是欠擬合的,也正是因為如此才有了優化的空間,我們需要不斷的調整演算法來使得模型的表達能拿更強。但是優化到了一定程度就需要解決過擬合的問題了,這個問題也在學術界討論的比較多。之前搜了很多有的部落格,講...

過擬合以及如何防止過擬合

過擬合即模型在訓練過程中對模型引數進行擬合的過程中,由於訓練資料集存在抽樣誤差 雜訊 複雜的模型在訓練的過程中會將抽樣誤差也一同進行擬合。這就導致訓練好的模型在訓練集上的表現很好,在測試集上的表現很差的原因。導致過擬合的主要原因有兩個 資料量太少和模型過於複雜 因為機器學習演算法在擬合出正確的規則後...