特徵工程的知識儲備 資料無量綱化

2021-10-10 15:24:55 字數 2218 閱讀 8237

資料無量綱化

無量綱化的意義

你現在拿到了許多資料,順序是完全隨機的。這已經不是單憑肉眼和邏輯推導就能分析出來的規律,只能通過機器學習來計算。那麼,應該從哪一步開始?

放心,無論是誰只要是第一次聽到這個名詞都會矇圈一會。其的定義就是:「將不同規格的資料轉換到同一規格或者不同分布的資料轉換為同一分布」。聽起來不是很好理解?

還是那個時候收集了20萬貓娘資料的你。這個時候你甚至收集到了貓娘們跳遠、跳高的資料。可是這些資料都集中在1.537

1.537

1.53

7公尺左右,想要分析的話實在是計算量非常大。所以,你修改了一下計算參照,不再是將所有的資料和0

00公尺相比,而是和平均值1.537

1.537

1.53

7公尺相比。於是大量的資料都集中在0

00到0.262

0.262

0.26

2,少部分分布在0.262

0.262

0.26

2到0.501

0.501

0.50

1。這個計算量就好多了,不是麼?

這就是資料規格化

資料規格化指對資料的規範化處理。有些情況下,為了能正確地真正反映實際情況,必須對原始資料進行加工處理,使之規範化。資料經過規格化後其計算結果與未經規格化的計算結果差別較大。這是由於相似係數取決於座標原點的位置。在規格化後,座標原點移動了,使樣品之間的夾角改變很大。

聽到這裡,你的dna應該有反應了。沒錯,就是

若 x∼

n(μ,

σ2),

那麼y=

x−μσ

∼n(0

,1)若x\sim n(\mu,\sigma^2),那麼y=\frac\sim n(0,1)

若x∼n(μ

,σ2)

,那麼y

=σx−

μ​∼n

(0,1

)之前我們在做題的時候都是二話不說先化為標準正態分佈,實際上這麼做就是為了資料規格化

而對於不同分布的資料我們則是盡可能地轉化為統一的分布,這個分布多半選擇正態分佈,因為正態分佈有非常多便於統計運算的性質。

正因為資料的無量綱化之後能夠將資料變為更為規範的、標準的資料集,所以往往在進行機器學習的時候為了能夠更快地收斂、在更短的時間內給出更精確的結果,無量綱化也是重要的一步。當然,也可以跳過,這都看原資料的質量了。

機器學習和資料探勘中所使用的資料,永遠不可能是完美的。很多特徵,對於分析和建模來說意義非凡,但對於實際收集資料的人卻不是如此,因此資料探勘之中,常常會有重要的字段缺失值很多,但又不能捨棄欄位的情況。因此,資料預處理中非常重要的一項就是處理缺失值。

——摘自csdn使用者ai_engine:資料無量綱化

聽起來像極了對賬的時候各種奇葩漏賬、錯別字的樣子,不是麼?機器面對這樣一大批亂七八糟的東西也是一樣的。「這tm是啥?」「那tm又是啥?」然後稀里糊塗給了個讓你情不自禁說出「這tm什麼鬼」的結果。

聽起來還是有點不太明白?舉個例子。

你想給你的小貓娘科普中國四大名著。但是很可惜,在使用電腦準備文案的時候,你把水滸傳打成了水許傳。最絕望的是,你的小貓娘學會了。可以想象,你的小貓娘蹦蹦跳跳的跑到別人面前大聲喊出「水許傳」的時候,你會有多尷尬。

機器學習也是一樣的,要是有個錯誤的資料,完全不會自己思考的機器就會把這個當作正確答案進行進一步的運算,然後得出乙個錯誤的結果。像極了計算出老奶奶的速度是60km/h的小學生。

若 x∼

n(0,

1),則

ex&=&0\\ dx&=&1\\ \end \right.

若x∼n(0

,1),

則x^2}y^2}

f(m,n)

=m∑i

=1n​

y2n∑

i=1m

​x2​

等。是不是有點能理解了?

資料預處理 無量綱化

1.無量綱化定義 無量綱化,也稱為資料的規範化,是指不同指標之間由於存在量綱不同致其不具可比性,故首先需將指標進行無量綱化,消除量綱影響後再進行接下來的分析。2.無量綱化方法 無量綱化方法有很多,但是從幾何角度來說可以分為 直線型 折線型 曲線形無量綱化方法。1 直線型無量綱化方法 直線型無量綱化方...

機器學習 資料無量綱化 5 分型別資料

標籤編碼 可以處理一維資料 from sklearn.preprocessing import labelecoder le labelencode fit transfrom y le.classes 屬性.classes 檢視標籤中究竟有多少類別 特徵編碼 from sklearn.prepro...

特徵工程 資料離散化方法

離散化特徵的增加和減少都很容易,有利於模型的快速迭代 可以有效地避免一些異常資料的干擾,降低資料波動的影響,提高抗雜訊能力,模型結果更穩定 一些演算法的需要,如分類樹 樸素貝葉斯演算法等,是基於離散化資料展開的 減小演算法的空間和時間開銷,起到簡化模型的作用,降低過擬合的風險,提高系統的分類聚類能力...