機器學習中常用的資料集處理方法

2021-08-11 03:17:08 字數 554 閱讀 5960

1.離散值的處理:

因為離散值的差值是沒有實際意義的。比如如果用0,1,2代表紅黃藍,1-0的差值代表黃-紅,是沒有意義的。因此,我們往往會把擁有d個取值的離散值變為d個取值為0,1的離散值或者將其對映為多維向量。

2.屬性歸一化:

歸一化的目標是把各位屬性的取值範圍放縮到差不多的區間,例如[-0.5,0.5]。這裡我們使用一種很常見的操作方法:減掉均值,然後除以原取值範圍。

做歸一化至少有以下3個理由: - 過大或過小的數值範圍會導致計算時的浮點上溢或下溢。 - 不同的數值範圍會導致不同屬性對模型的重要性不同(至少在訓練的初始階段如此),而這個隱含的假設常常是不合理的。這會對優化的過程造成困難,使訓練時間大大的加長。 - 很多的機器學習技巧/模型(例如l1,l2正則項,向量空間模型-vector space model)都基於這樣的假設:所有的屬性取值都差不多是以0為均值且取值範圍相近的。

3.分割資料集

一般把資料集分為兩部分,一部分為訓練集,用於訓練資料,一部分為測試集,用於測試訓練的資料,測試集不應過多或過少,資料較少時訓練集:測試集可以為8:2,較多時比例可以達到9:1 。

機器學習 資料探勘中常用的資料清洗方法

在資料探勘過程中,資料清洗主要根據探索性分析後得到的一些結論入手,然後主要對四類異常資料進行處理 分別是缺失值 missing value 異常值 離群點 去重處理 duplicate data 以及噪音資料的處理。1.探索性分析 探索性分析部分,對於整個資料來講是獲得對資料乙個初步的認識以及對先驗...

深度學習CV中常用的資料集

資料集中為單通道,大小為28x28畫素 訓練集train images.idx3 ubyte,檔案大小47040016b,47040016 60000x28x28 16,測試集t10k images.idx3 ubyte,檔案大小7840016b,7840016 10000x28x28 16,其中資...

sklearn中常用資料預處理方法

normalize x,norm l2 axis 1,copy true,return norm false scale input vectors individually to unit norm vector length 範化是將不同變化範圍的值對映到相同的固定範圍,常見的是 0,1 此時也...