資料分析之前,我們通常需要先將資料標準化(normalization),利用標準化後的資料進行資料分析。資料標準化也就是統計資料的指數化。資料標準化處理主要包括資料同趨化處理和無量綱化處理兩個方面。資料同趨化處理主要解決不同性質資料問題,對不同性質指標直接加總不能正確反映不同作用力的綜合結果,須先考慮改變逆指標資料性質,使所有指針對測評方案的作用力同趨化,再加總才能得出正確結果。資料無量綱化處理主要解決資料的可比性。資料標準化的方法有很多種,常用的有「最小—最大標準化」、「z-score標準化」和「按小數定標標準化」等。經過上述標準化處理,原始資料均轉換為無量綱化指標測評值,即各指標值都處於同乙個數量級別上,可以進行綜合測評分析。
min-max標準化方法是對原始資料進行線性變換。設mina和maxa分別為屬性a的最小值和最大值,將a的乙個原始值x通過min-max標準化對映成在區間[0,1]中的值x',其公式為:
新資料=(原資料-極小值)/(極大值-極小值)
個人認為,min-max 標準化是一種歸一化方法,歸一化就是要把你需要處理的資料經過處理後(通過某種演算法)限制在你需要的一定範圍內
這種方法基於原始資料的均值(mean)和標準差(standard deviation)進行資料的標準化。將a的原始值x使用z-score標準化到x'。
z-score標準化方法適用於屬性a的最大值和最小值未知的情況,或有超出取值範圍的離群資料的情況。
新資料=(原資料-均值)/標準差
標準化後的變數值圍繞0上下波動,大於0說明高於平均水平,小於0說明低於平均水平。
這種方法通過移動資料的小數點位置來進行標準化。小數點移動多少位取決於屬性a的取值中的最大絕對值。將屬性a的原始值x使用decimal scaling標準化到x'的計算方法是:
x'=x/(10*j)
其中,j是滿足條件的最小整數。
例如假定a的值由-986到917,a的最大絕對值為986,為使用小數定標標準化,我們用1000(即,j=3)除以每個值,這樣,-986被規範化為-0.986。
除了上面提到的資料標準化外還有對數logistic模式、模糊量化模式等等:
對數logistic模式:新資料=1/(1+e^(-原資料))
模糊量化模式:新資料=1/2+1/2sin[派3.1415/(極大值-極小值)*(x-(極大值-極小值)/2) ]
x為原資料
無量綱量常寫作兩個有量綱量之積或比,但其最終的綱量互相消除後會得出無量綱量。比如,應變是量度形變的量,定義為長度差與原先長度之比。但由於兩者的量綱均為l(長度),因此相除後得出的量是沒有量綱的。
資料規範化
資料歸一化是指把資料壓縮到 0,1 的區間內。sklearn.preprocessing.minmaxscalar 將資料壓縮到min到max組成的區間,並使其結果落在0到1的範圍內。x x mi nmax min sklearn.preprocessing.standardscalar 將資料轉換...
資料規範化
資料轉化 資料離散化 資料擴充 資料合併與拆分 資料轉化 這部分的目的較多,如分類變數賦值後可以使用更多的分析方法 連續變數轉化為分類變數是因為各人群之間的差異並不大,可以進行分組 標準化的目的是為了消除各變數之間的資料量綱 資料一般化的目的是將同連續變數轉化為分類變數的目的,不需要針對細分的分類進...
資料庫規範化
規範化 normalization 是資料庫系統設計中非常重要的乙個技術。資料庫規範化能夠讓資料庫設計者更好地了解組織內部當前的資料結構,最終得到一系列的資料實體。資料庫規範化通過對資料庫表的設計,可以有效降低資料庫冗餘程度。在進行資料庫規範化的時候,我們有一系列的步驟需要遵循。我們把這些步驟稱作正...