資料預處理 無量綱化

2022-08-31 20:48:08 字數 1307 閱讀 1467

1.無量綱化定義

無量綱化,也稱為資料的規範化,是指不同指標之間由於存在量綱不同致其不具可比性,故首先需將指標進行無量綱化,消除量綱影響後再進行接下來的分析。

2.無量綱化方法

無量綱化方法有很多,但是從幾何角度來說可以分為:直線型、折線型、曲線形無量綱化方法。

(1)直線型無量綱化方法

直線型無量綱化方法是指指標原始值與無量綱化後的指標值之間呈現線性關係,常用的線性量化方法有閾值法、標準化法與比重法。

①閾值法是我們最熟悉也最常用的一種無量綱化方法,閾值也稱臨界值,是指衡量事物發展變化的一些特殊指標值,如極大值、極小值等,而閾值法就是通過實際值與閾值對比得到無量綱化指標值的方法。主要公式以及特點如下圖中所示。

值得注意的一點,閾值引數的選取確定卻會直接影響分析的結果,這裡需考慮實際情況加上已有經驗進行探索,逐步優化,直到尋找最合適的閾值(最合適就是結果可以達到讓自己滿意的程度)。

②標準化方法就是指標原始值減去該指標的均值然後比上其標準差。

無論指標實際值是多少,最終將分布在零的兩側,與閾值法相比,標準化方法利用樣本更多的資訊,且標準化後的資料取值範圍將不在[0,1]之間。

③比重法是將指標實際值轉化為他在指標值總和中所佔的比重。

(2)折線型無量綱化方法

折線型無量綱化適用於被評價事物呈現階段性變化,即指標值在不同階段變化對事物總體水平影響是不一樣的。

雖然折線型無量綱化方法比直線型無量綱化方法更符合實際情況,但是要想確定指標值的轉折點不是一件容易的事情,需要對資料有足夠的了解和掌握。

(3)曲線形無量綱化方法

有些事物發展的階段性變化並不是很明顯,而前、中、後期的發展情況又各不相同,就是說指標值的變化是循序漸進的,並不是突變的,在這種情況下,曲線形無量綱化方法也更為合適,常用的曲線形無量綱化方法如下圖所示:

(4)模糊無量綱化方法

綜合評價中的評價指標可以分為正向指標(即指標值越大越好)、逆指標(即指標值越小越好)和適度指標(即指標值落在某個區間最好,大了、小了都不好),指標彼此之間「好」與「壞」並沒有乙個標準,在很大程度上具有一定的模糊性,這時候可以選擇此方法對指標進行無量綱化處理,有興趣自行搜尋學習。

本文參考: 

資料預處理 無量綱化處理

無量綱化,也稱為資料的規範化,是指不同指標之間由於存在量綱不同致其不具可比性,故首先需將指標進行無量綱化,消除量綱影響後再進行接下來的分析。無量綱化方法有很多,但是從幾何角度來說可以分為 直線型 折線型 曲線形無量綱化方法。直線型無量綱化方法是指指標原始值與無量綱化後的指標值之間呈現線性關係,常用的...

特徵工程的知識儲備 資料無量綱化

資料無量綱化 無量綱化的意義 你現在拿到了許多資料,順序是完全隨機的。這已經不是單憑肉眼和邏輯推導就能分析出來的規律,只能通過機器學習來計算。那麼,應該從哪一步開始?放心,無論是誰只要是第一次聽到這個名詞都會矇圈一會。其的定義就是 將不同規格的資料轉換到同一規格,或者不同分布的資料轉換為同一分布 聽...

機器學習 資料無量綱化 5 分型別資料

標籤編碼 可以處理一維資料 from sklearn.preprocessing import labelecoder le labelencode fit transfrom y le.classes 屬性.classes 檢視標籤中究竟有多少類別 特徵編碼 from sklearn.prepro...