當類別特徵仍保持原始形式時,其取值來自所有可能取值構成的集合而不是乙個數字,故不能作為輸入。
當各個取值之間是沒有順序關係的並列關係,這樣的類別特徵稱為 名義(nominal)變數。相反,那些存在順序關係的(比如評級,評級5的會好於評級1的),則被稱為 有序(ordinal)變數。
將類別特徵表示為數字形式,常可借助 1-of-k 這樣的編碼方法進行。
假設變數的取值有 k 個,如果對這些值用 1 到 k 編序,則可用長度為 k 的二元向量來表示乙個變數的值。在這樣的向量裡,該取值所對應的序號所在的元素為1,其他元素均為0.
>>>
labels = [
'a+'
, 'a-'
, 'b+'
, 'b-'
, 'c+'
,'c-'
, 'd+'
, 'd-']
>>>
binary_code = [
0]*len(labels)
>>>
binary_code[labels.index(
'b+'
)] = 1
>>>
binary_code[
0.,
0.,
1.,
0.,
0.,
0.,
0.,
0.]
# 根據 類別 b+ 獲得其對應的二元向量編碼
# [ 0., 0., 1., 0., 0., 0., 0., 0.]
特徵工程之特徵預處理
概念 特徵預處理是什麼呢?特徵預處理是通過統計方法 數學方法 將資料轉換成演算法要求的資料,所以特徵預處理也叫做資料預處理。下面是幾種資料預處理的方法 1 數值型資料 標準縮放 1 歸一化2 標準化 2 類別型資料 one hot編碼 3 時間類別 時間的劃分 下面介紹歸一化和標準化歸一化 歸一化 ...
特徵工程之特徵預處理
在前面我們分別討論了特徵工程中的特徵選擇與特徵表達,本文我們來討論特徵預處理的相關問題。主要包括特徵的歸一化和標準化,異常特徵樣本清洗與樣本資料不平衡問題的處理。由於標準化和歸一化這兩個詞經常混用,所以本文不再區別標準化和歸一化,而通過具體的標準化和歸一化方法來區別具體的預處理操作。z score標...
特徵工程之特徵預處理
在前面我們分別討論了特徵工程中的特徵選擇與特徵表達,本文我們來討論特徵預處理的相關問題。主要包括特徵的歸一化和標準化,異常特徵樣本清洗與樣本資料不平衡問題的處理。1.特徵的標準化和歸一化 由於標準化和歸一化這兩個詞經常混用,所以本文不再區別標準化和歸一化,而通過具體的標準化和歸一化方法來區別具體的預...