Pandas中類別型變數對映為數字或其它值

在機器學習中對於有序的類別型變數可以不採用onehot編碼，直接使用有序數字代替即可，這個目的可以在pandas中使用map方法實現。

import pandas as pd

raw_data = 
df = pd.dataframe(raw_data, columns = ['first_name', 'last_name', 'age', 'city'])
df

first_name

last_name

agecity

0jason

miller

42san francisco

1molly

jacobson

52baltimore

2tina

ali36

miami

3jake

milner

24douglas

4amy

cooze

73boston

在這裡假定是有序的,將城市名對映為數字，當然也可是是其它字元中：

city_to_state =

城市名map到洲名，儲存到state變數中：

df['state'] = df['city'].map(city_to_state)
df

first_name

last_name

agecity

state

0jason

miller

42san francisco01

molly

jacobson

52baltimore12

tina

ali36

miami23

jake

milner

24douglas34

amycooze

73boston

類別型變數因子化原因及方法總結

參考線性回歸分析中的啞變數啞變數 dummy variable 也叫虛擬變數，引入啞變數的目的是，將不能夠定量處理的變數量化，如職業性別對收入的影響，戰爭自然災害對gdp的影響，季節對某些產品如冷飲銷售的影響等等。這種量化通常是通過引入啞變數來完成的。根據這些因素的屬性型別，構造只...

資料分析預處理字元型類別變數（string）

在資料分析時，會遇到一些非數值型的類別變數，例如字串型別 string 比如，西瓜的色澤青綠淺白烏黑等等直接放在svm 決策樹或者貝葉斯分類器時，不方便處理，也直接套用sklearn中的內建演算法。因而在預處理時需要對他們做相應的處理。一般可以把類別資料分為無序和有序兩類。有序比如衣服尺...

C C 中的變數儲存類別以及記憶體分配

1.變數的儲存類別從變數值存在的角度來分，可以分為靜態儲存方式和動態儲存方式。所謂靜態儲存方式指在程式執行期間由系統分配固定的儲存空間的方式程式開始執行時分配，在程式完畢時釋放，在程式過程中它們佔據國定的儲存單元，而不是動態分配和釋放而動態儲存方式在執行期間根據需要進行動態儲存方式在程式過程...

Pandas中類別型變數對映為數字或其它值

類別型變數因子化原因及方法總結

資料分析預處理 字元型類別變數（string）

C C 中的變數儲存類別以及記憶體分配

相關推薦

資料分析預處理字元型類別變數（string）