ML中的資料集處理方法

兩個常見概念：

過擬合：是指為了得到一致假設而使假設變得過度嚴格。當機器學習把訓練樣本學習得「太好」，可能把訓練樣本自身的一些特點當成了所有潛在樣本都具有的一本性質，這樣舊會導致泛化效能下降，這種現象在機器學習中成為過擬合overfitting.

欠擬合：是指模型擬合程度不高，即模型沒有很好地捕捉到資料特徵，不能夠很好地擬合資料。通常是由於學習能力低下而造成的。

乙個直觀化的模擬，如下圖所示：

常見的三種資料集處理方法：

通常，我們在「訓練集」training set來對演算法進行訓練，在「測試集」tesing set上對演算法進行測試，通過得到的誤差，來對演算法進行評估。這就要求，測試集和訓練集互斥，用new data去測試old data上訓練處的演算法。

所以，當我們拿到乙個資料集d時，為了得到訓練集s，測試集t，通過有下面幾種做法：

1.留出法：

d=s∪t，s∩t=∅

同時，s和t的劃分也要使用「分層取樣」，使資料分布盡量平均，避免因資料劃分引起的額外誤差。

2.交叉驗證法：

將d劃分為n個大小相似的互斥子集，每次用n-1個做訓練集，剩下那個做測試集。

3.自助法：

上面兩種方法的訓練集都小於d，這樣可能會引入一下因訓練樣本規模不同而導致的估計偏差，這時可以採用自助法。

它以自主取樣法為基礎，例如資料集d中有m個樣本，則取樣m次，放入d'，作為訓練集。然後拿沒在訓練集**現的資料，用於測試集。然而，自助法產生的資料集改變了初識資料集的分布，可能會引入估計偏差，因為，在資料量足夠時，前兩種方法更加常用。

reference: 西瓜書