在機器學習中對於有序的類別型變數可以不採用onehot編碼,直接使用有序數字代替即可,這個目的可以在pandas中使用map方法實現。
import pandas as pd
raw_data =
df = pd.dataframe(raw_data, columns = ['first_name', 'last_name', 'age', 'city'])
df
first_name
last_name
agecity
0jason
miller
42san francisco
1molly
jacobson
52baltimore
2tina
ali36
miami
3jake
milner
24douglas
4amy
cooze
73boston
在這裡假定是有序的,將城市名對映為數字,當然也可是是其它字元中:
city_to_state =
城市名map到洲名,儲存到state變數中:
df['state'] = df['city'].map(city_to_state)
df
first_name
last_name
agecity
state
0jason
miller
42san francisco01
molly
jacobson
52baltimore12
tina
ali36
miami23
jake
milner
24douglas34
amycooze
73boston
4
類別型變數因子化原因及方法總結
參考線性回歸分析中的啞變數 啞變數 dummy variable 也叫虛擬變數,引入啞變數的目的是,將不能夠定量處理的變數量化,如職業 性別對收入的影響,戰爭 自然災害對gdp的影響,季節對某些產品 如冷飲 銷售的影響等等。這種 量化 通常是通過引入 啞變數 來完成的。根據這些因素的屬性型別,構造只...
資料分析預處理 字元型類別變數(string)
在資料分析時,會遇到一些非數值型的類別變數,例如字串型別 string 比如,西瓜的色澤 青綠 淺白 烏黑等等 直接放在svm 決策樹或者貝葉斯分類器時,不方便處理,也直接套用sklearn中的內建演算法。因而在預處理時需要對他們做相應的處理。一般可以把類別資料分為 無序和有序兩類。有序 比如衣服尺...
C C 中的變數儲存類別以及記憶體分配
1.變數的儲存類別 從變數值存在的角度來分,可以分為靜態儲存方式和動態儲存方式。所謂靜態儲存方式指在程式執行期間由系統分配固定的儲存空間的方式 程式開始執行時分配,在程式完畢時釋放,在程式過程中它們佔據國定的儲存單元,而不是動態分配和釋放 而動態儲存方式在執行期間根據需要進行動態儲存方式 在程式過程...