Pandas中類別型變數對映為數字或其它值

2021-09-11 19:48:15 字數 1035 閱讀 9892

在機器學習中對於有序的類別型變數可以不採用onehot編碼,直接使用有序數字代替即可,這個目的可以在pandas中使用map方法實現。

import pandas as pd
raw_data = 

df = pd.dataframe(raw_data, columns = ['first_name', 'last_name', 'age', 'city'])

df

first_name

last_name

agecity

0jason

miller

42san francisco

1molly

jacobson

52baltimore

2tina

ali36

miami

3jake

milner

24douglas

4amy

cooze

73boston

在這裡假定是有序的,將城市名對映為數字,當然也可是是其它字元中:

city_to_state =
城市名map到洲名,儲存到state變數中:

df['state'] = df['city'].map(city_to_state)

df

first_name

last_name

agecity

state

0jason

miller

42san francisco01

molly

jacobson

52baltimore12

tina

ali36

miami23

jake

milner

24douglas34

amycooze

73boston

4

類別型變數因子化原因及方法總結

參考線性回歸分析中的啞變數 啞變數 dummy variable 也叫虛擬變數,引入啞變數的目的是,將不能夠定量處理的變數量化,如職業 性別對收入的影響,戰爭 自然災害對gdp的影響,季節對某些產品 如冷飲 銷售的影響等等。這種 量化 通常是通過引入 啞變數 來完成的。根據這些因素的屬性型別,構造只...

資料分析預處理 字元型類別變數(string)

在資料分析時,會遇到一些非數值型的類別變數,例如字串型別 string 比如,西瓜的色澤 青綠 淺白 烏黑等等 直接放在svm 決策樹或者貝葉斯分類器時,不方便處理,也直接套用sklearn中的內建演算法。因而在預處理時需要對他們做相應的處理。一般可以把類別資料分為 無序和有序兩類。有序 比如衣服尺...

C C 中的變數儲存類別以及記憶體分配

1.變數的儲存類別 從變數值存在的角度來分,可以分為靜態儲存方式和動態儲存方式。所謂靜態儲存方式指在程式執行期間由系統分配固定的儲存空間的方式 程式開始執行時分配,在程式完畢時釋放,在程式過程中它們佔據國定的儲存單元,而不是動態分配和釋放 而動態儲存方式在執行期間根據需要進行動態儲存方式 在程式過程...