總結做資料歸一化時出現的小問題

我們知道在乙個資料集裡，存在著多個特徵，而這些特徵的量綱大多數情況下不會全部一致，因此，這是我們需要對資料集進行歸一化處理，如下所示，是我要處理的資料。

在歸一化方法中，一般有兩種方法。

此方法將資料對映到【0,1】範圍內，其公式如下所示

這種方法的pandas實現中，需要注意data的中括號裡需要再次新增『』。否則會報錯。

# 這裡我只取了一列做例子
max_min_scaler = lambda x: (x - np.min(x)) / (np.max(x) - np.min(x))
# 而不是如下寫法

在z-score標準化中，我們的處理後的資料的均值為0，標準差為1。

此方法的公式為如下所示：

在這種方法的pandas實現中，與第一種不同的是，我們恰恰要使用第一種不使用的寫法實現，否則會出現下圖所示，結果全為nan的資料。**如下：

# means,va 列表分別儲存這一列的均值與標準差

zscore_scaler = lambda x: (x - means) / va

# 而不是下面

資料歸一化時的疑問？

在對多分類資料進行z score歸一化時，是再將各類資料彙總後進行均值歸一化？還是將每類資料進行歸一化後再彙總？題主進行了實驗實驗1 各類資料彙總後進行均值歸一化 0，1，2，3，4類，測試每類取17個孿生網路評判相似度作用準確率為 75 各類實驗準確率如下 0 0.294 0類被當作是1的...

資料歸一化的方法總結

資料的標準化 normalization 是將資料按比例縮放，使之落入乙個小的特定區間。在某些比較和評價的指標處理中經常會用到，去除資料的單位限制，將其轉化為無量綱的純數值，便於不同單位或量級的指標能夠進行比較和加權。其中最典型的就是資料的歸一化處理，即將資料統一對映到 0,1 區間上，常見的資料歸...

記錄一些專案出現的小問題（自用）

設定根目錄相對路徑選擇當前目錄為路徑起點，如下圖新增當前目錄大概率為.vcxproj檔案所在目錄 include mysql.h include 標頭檔案順序錯誤，將上面標頭檔案調換順序沒有匯入.cc檔案，在工程中匯入.cc檔案即可其中一種，我的錯誤是傳參時引數型別和引數值不對應，我的r...

總結 做資料歸一化時出現的小問題

資料歸一化時的疑問？

資料歸一化的方法總結

記錄一些專案出現的小問題（自用）

相關推薦

總結做資料歸一化時出現的小問題