維數災難:即高維情況下的過擬合
為了獲得更精準的分類,可以新增更多特徵。也許特徵達到一定維度,我們會得到乙個堪稱完美的分類器?其實不然,因為當特徵達到一定維度後,再去增加維度會導致分類器的效能下降,這便是經常提到的「
curse of dimension
」在得到乙個效能優良的分類器前,增加特徵便會有更好的分類效果,但事實卻不是這樣。其實在增加特徵時,樣本的密度會呈指數形式下降。假設
1維中長度為
5個單位
,2維中會有
25個單位
3維則會達到
125個單位,樣本數目是固定的,本例中為
10,可見維度的增高,樣本密度會呈指數級下降,通過新增特徵導致的稀疏,使我們易於找到乙個超平面來把樣本分離,因為特徵數目趨於無窮大時,樣本被分類錯誤的概率會變得無窮小,然而當把樣本由高維投影到低維時,便會有乙個嚴重的問題。
使用太多的特徵,分類器也會擬合訓練資料中的雜訊誤差,並且不能很好的泛化到新來的測試資料,即分類器不能把對樣本資料的分類能力很好的泛化到訓練資料。事實上,
通過新增增加特徵把資料對映到高維空間來獲得乙個優良的分類器,僅僅相當於在低維空間中使用乙個複雜的非線性分類器(
kernel method
)。在高維空間中,我們的分類器只擬合了稀疏的訓練資料,資料可能帶有誤差,這樣便會使分類器不能應用到乙個更廣闊的資料集,即缺乏泛化性。這個概念便是由維數引起的
over-fitting
這種簡單的分類效果會更好的泛化到訓練集以外的資料,因為它並沒有擬合只出現在訓練資料中的例外狀況。換句話說,使用較少的特徵,維數災難是可以避免的,不會過度擬合訓練資料。
用乙個值在(
0-1)之間的特徵來分類訓練資料,如果我們想要覆蓋特徵空間的
20%,我們便需要樣本總數的
20%,
如果新增乙個特徵,在
2維空間中,要覆蓋特徵空間的
20%,我們便需要在每個維度上取樣本的總數的
45%,
(0.45^2=2
),同理,
3維空間中需要在每個維度上取
58%。
cs229 Lecture17 離散與維數災難
主要內容 離散化 模型mdp的同化型 model similator 擬合值迭代演算法 q函式 近似政策迭代 筆記 之前我們的狀態都是離散的,如果狀態是連續的,下面將用乙個例子來予以說明,這個例子就是inverted pendulum問題 也就是乙個鐵軌小車上有乙個長桿,要用計算機來讓它保持平衡 其...
陣列的維數
作為引數或者在二維陣列的宣告時,往往可以省略第一維,但是不可以省略第二維,或者是更高的維數。這是由於編譯器的原理所限制的。a i j a 0 0 i sizeof int n sizeof int 此時 n為二維的維數 由此可以看出在定義二維陣列或更高維陣列時,對其進行初始化可以省略第一維引數,編譯...
二維數 三維陣列
二維陣列 2017 11 10 對比 1 概念 一維陣列 存貯一組相同型別資料 二維陣列 存貯著多個一維陣列 類推 三維陣列 存貯著多個二維陣列 2 宣告 一維陣列 陣列型別 陣列名 初始值 int arr01 int arr00 new int 5 二維陣列 陣列型別 陣列名 初值 陣列型別為一維...