我們知道在乙個資料集裡,存在著多個特徵,而這些特徵的量綱大多數情況下不會全部一致,因此,這是我們需要對資料集進行歸一化處理,如下所示,是我要處理的資料。
在歸一化方法中,一般有兩種方法。
此方法將資料對映到【0,1】範圍內,其公式如下所示
這種方法的pandas實現中,需要注意data的中括號裡需要再次新增『』。否則會報錯。
# 這裡我只取了一列做例子在z-score標準化中,我們的處理後的資料的均值為0,標準差為1。max_min_scaler = lambda x: (x - np.min(x)) / (np.max(x) - np.min(x))
# 而不是如下寫法
此方法的公式為如下所示:
在這種方法的pandas實現中,與第一種不同的是,我們恰恰要使用第一種不使用的寫法實現,否則會出現下圖所示,結果全為nan的資料。**如下:
# means,va 列表分別儲存這一列的均值與標準差zscore_scaler = lambda x: (x - means) / va
# 而不是下面
資料歸一化時的疑問?
在對多分類資料進行z score歸一化時,是再將各類資料彙總後進行均值歸一化?還是將每類資料進行歸一化後再彙總?題主進行了實驗 實驗1 各類資料彙總後進行均值歸一化 0,1,2,3,4類,測試每類取17個 孿生網路 評判相似度作用 準確率為 75 各類實驗準確率如下 0 0.294 0類被當作是1的...
資料歸一化的方法總結
資料的標準化 normalization 是將資料按比例縮放,使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權。其中最典型的就是資料的歸一化處理,即將資料統一對映到 0,1 區間上,常見的資料歸...
記錄一些專案出現的小問題(自用)
設定根目錄 相對路徑 選擇當前目錄為路徑起點,如下圖新增 當前目錄 大概率為.vcxproj檔案所在目錄 include mysql.h include 標頭檔案順序錯誤,將上面標頭檔案調換順序 沒有匯入.cc檔案,在工程中匯入.cc檔案即可 其中一種,我的錯誤是傳參時引數型別和引數值不對應,我的r...