在對多分類資料進行z-score歸一化時,是再將各類資料彙總後進行均值歸一化?還是將每類資料進行歸一化後再彙總?
題主進行了實驗:
實驗1-各類資料彙總後進行均值歸一化:(0,1,2,3,4類,測試每類取17個)
孿生網路(評判相似度作用)準確率為:75%
各類實驗準確率如下:0:0.294 #0類被當作是1的 個數是11
1: 0.352 #1類被當作是0的 個數是7
2:0.76 #2類準確率,2類被當作是4的 個數是4
3:0.41 #3類準確率,3類被當作是0的 個數是7
4:0.64 #4類準確率,4類被當作是3的 個數是3
實驗2-各類資料彙總後進行均值歸一化:(0,1,2,3,4類,測試每類取17個)
孿生網路(評判相似度作用)準確率為:80%
各類實驗準確率如下:0:0.76 #0類被當作是1的 個數是3
1: 0.11 #1類被當作是4的 個數是8
2:0.88 #2類準確率,2類被當作是0的 個數是2
3:0.70 #3類準確率,3類被當作是4的 個數是4
4:0.58 #4類準確率,
總結 做資料歸一化時出現的小問題
我們知道在乙個資料集裡,存在著多個特徵,而這些特徵的量綱大多數情況下不會全部一致,因此,這是我們需要對資料集進行歸一化處理,如下所示,是我要處理的資料。在歸一化方法中,一般有兩種方法。此方法將資料對映到 0,1 範圍內,其公式如下所示 這種方法的pandas實現中,需要注意data的中括號裡需要再次...
資料的歸一化
正常情況下,資料的處理用的都是線性歸一化,但是如果實驗的資料服從某種分布函式時,其中最多的就是正態分佈了,假設實驗資料是服從正態分佈的,我們可以通過乙個函式來對資料進行變換,這個函式選取的原則就是使得原有資料中的資訊量最多,即資訊熵最大。首先我說一下資訊熵的計算方法 可能這裡講熵的概念更難理解了,換...
資料歸一化
近來,在網上搜了很多關於資料歸一化的帖子,看了太多,很雜,這裡整理總結一下 歸一化是一種資料預處理方法,就是要把你需要處理的資料經過處理後 通過某種演算法 限制在你需要的一定範圍內,為了後面資料處理的方便,其次是保正程式執行時 收斂加快。比如說,對於奇異樣本資料 所謂奇異樣本資料資料指的是相對於其他...