特徵工程總結(二) 預處理

2021-08-19 15:52:23 字數 2812 閱讀 7854

一:單個特徵

1.資料標準化:

資料歸一化處理是資料探勘的一項基礎工作,不同評價指標往往有不同的量綱和量綱單位,這種情況會影響到資料分析的結果,

為了消除指標之間的量綱影響,

需要進行資料標準化處理,以解決資料指標之間的可比性.原始資料經過資料標準化後,

各指標處於同一數量級下,適合進行綜合對比評價。

(1)線性歸一化:線性函式將原始資料線性化的方法轉換到【0,1】的範圍。公式如下:      

其中xnorm為歸一化後的資料,x為原始資料,xmax、xmin分別為原始資料集的最大值和最小值。

x_train=sklearn.preprocessing.min_maxscaler.fit_transform(x_train)  檢驗:print x_train

附.x_train=sklearn.preprocessing.maxabsscaler.transform(x_train)  該方法是將資料歸一化到【-1,1】之間

(2)0均值標準化:0均值標準化方法將原始資料集標準化位均值為0,方差為1的資料集。公式如下:

其中,μ、σ分別為原始資料集的均值和方法,這種標準化的要求是原始資料盡量服從正太分布,不然,效果很糟糕。

x_train=sklearn.preprocessing.scale(x_train)  檢驗:x_train.mean(axis=0),x_train.std(axis=0)

3.離散化

一些資料探勘演算法,特別是某些分類演算法(如:id3,apripri演算法等),要求資料是分類屬性形式,這樣,

常常需要將連續屬性變換成分類屬性,即連續屬性離散化。

離散化目標:

1.確定分類數。

2.如何將連續屬性值對映到這些分類值

離散化方法分類:

根據資料是否包含類別資訊可以把他們分成有監督的資料和無監督的資料。

有監督的離散化要考慮類別資訊而無監督的離散化不需要。

無監督離散化:假設屬性的取值空間為x=,離散化之後的類標號是y=,則無監督離散化的情況就是x已知而y未知;

(1)等寬演算法:根據使用者指定的區間數目k,將屬性的值域[min(x)-max(x)]劃分為k個區間,並使每個區間的寬度相等,

即都等於max(x)-min(x)/k.

缺點是容易受離群點的影響而使效能不佳。

(2)等頻演算法:也是根據使用者自定義的區間數目,將屬性的值域分為k個小區間,他要求落在每個區間的物件數目相等。

譬如,屬性的取值區間內共有

m個點則等頻區間所劃分的k

個小區域內,每個區域含有m

k個點。 

(3)k-means聚類演算法:首先由使用者指定離散化產生的區間數目k

,k-均值演算法首先從資料集中隨機找出k

個資料作為k

個初始區間的重心;

然後,根據這些重心的歐式距離,對所有的物件聚類:如果資料

x距重心gi

最近,則將x

劃歸所代表的那個區間;然後重新計算各區間的重心gi

,並利用新的重心重新聚類所有樣本。

逐步迴圈,直到所有區間的重心不再隨演算法迴圈而改變為止。

4.dummy coding(虛擬變數):這個暫時沒有找到較好的資料,以後補充。

5.缺失值

造成缺失值的原因:機械原因和人為原因,機械原因是由於機械原因導致的資料收集或儲存的失敗造成的資料缺失,比如資料儲存的失敗,儲存器損壞,機械故障導致某段時間資料未能收集(對於定時資料採集而言)。人為原因是由於人的主觀失誤、歷史侷限或有意隱瞞造成的資料缺失,比如,在市場調查中被訪人拒絕透露相關問題的答案,或者回答的問題是無效的,資料錄入人員失誤漏錄了資料。

造成缺失值的原因是多方面的,主要可能有一下幾種:

(1)有些資訊暫時無法獲取

(2)有些資訊是倍遺漏的

(3)有些物件的某個或某些屬性是不可用的

(4)有些資訊被認為是不重要的,獲取這些資訊的代價太大

(5)系統實時行效能要求較高

缺失值的處理方法:

(一)刪除元組

簡單來說就是,將存在遺漏資訊屬性值的物件刪除,從而得到乙個完備的資訊表,但是這種方式有很大的弊端,就是他是以減少歷史資料來換取資訊的完備,會造成資源的大量浪費,丟棄了大量隱藏在這些物件中的資訊。

(二)資料補齊

這類方法是用一定的值去填補控制,從而使得資訊表完備,通常基於統計學原理,根據決策表中其餘物件取值的分布情況來對乙個控制進行填補,譬如用其餘屬性的平均值來進行補充,一般的補充方法:

(1)人工填寫:由於最了解資料的還是使用者自己,因此這個方法產生資料偏離最小,可能是填補效果最好的一種,然而一般來說,該方法很費時,當數規模很大時候,

空值很多的時候,這個方法時不可行的,

(3)平均值填補:將資訊表中的屬性分為數值屬性和非數值屬性來分別進行處理,如果空值時數值型的,就根據該屬性在其他所有物件的取值的平均值來填補該缺失的屬性值,如果空值時非數值型的,就根據統計學中的眾數原理,用該屬性在其他所有物件的取值次數最多的值來填補該缺失的屬性值。

(4)熱卡填補: 對於一種包含空值的物件,熱卡填充法在完整資料中找到乙個和他最相似的物件,然後用這個相似物件的值進行填補。不同的問題可能會選用不同的標準來找相似進行判定。該方法概念上很簡單,且利用了資料見的關係來進行空值估計,這個方法的缺點在於難以定義相似標準,主觀因素較多。

(5)k最近距離鄰法: 先根據歐式距離或相關分析來確定距離具有缺失資料樣本最近的k個樣本,將這k個值加權平均來估計該樣本的缺失資料。                                          

(三)不處理: 直接在包含空值的資料上進行資料探勘,這類方法包括貝葉斯網路和人工神經網路

6.資料變換  

(1)log

(2)指數

(3)box-cox

特徵工程之特徵預處理

概念 特徵預處理是什麼呢?特徵預處理是通過統計方法 數學方法 將資料轉換成演算法要求的資料,所以特徵預處理也叫做資料預處理。下面是幾種資料預處理的方法 1 數值型資料 標準縮放 1 歸一化2 標準化 2 類別型資料 one hot編碼 3 時間類別 時間的劃分 下面介紹歸一化和標準化歸一化 歸一化 ...

特徵工程之特徵預處理

在前面我們分別討論了特徵工程中的特徵選擇與特徵表達,本文我們來討論特徵預處理的相關問題。主要包括特徵的歸一化和標準化,異常特徵樣本清洗與樣本資料不平衡問題的處理。由於標準化和歸一化這兩個詞經常混用,所以本文不再區別標準化和歸一化,而通過具體的標準化和歸一化方法來區別具體的預處理操作。z score標...

特徵工程之特徵預處理

在前面我們分別討論了特徵工程中的特徵選擇與特徵表達,本文我們來討論特徵預處理的相關問題。主要包括特徵的歸一化和標準化,異常特徵樣本清洗與樣本資料不平衡問題的處理。1.特徵的標準化和歸一化 由於標準化和歸一化這兩個詞經常混用,所以本文不再區別標準化和歸一化,而通過具體的標準化和歸一化方法來區別具體的預...