資料的特徵工程

2021-10-04 11:50:51 字數 499 閱讀 5211

1、匯入資料

2、刪除異常值

3、特徵構造

4、特徵篩選(過濾式、包裹式、嵌入式)

stratidfiedkfold和kfold交叉驗證,都是將訓練集分成k份,其中k-1份的訓練集,1份的驗證集。

不過特別的是stratifiedkfold將驗證集的正負樣本比例,保持和原始資料的正負樣本比例相同

在資料探勘資料處理過程中,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。

通過中心化和標準化處理,最終得到均值為0,標準差為1的服從標準正態分佈的資料。可以取消由於量綱不同、自身變異或者數值相差較大所引起的誤差。

中心化(又叫零均值化):是指變數減去它的均值。其實就是乙個平移的過程,平移後所有資料的中心是(0,0)。

標準化(又叫歸一化): 是指數值減去均值,再除以標準差。

大資料 特徵工程

1 單變數特徵篩選 計算每乙個特徵與響應變數的相關性 工程上常用的手段有計算皮爾遜係數和互資訊係數,皮爾遜係數只能衡量線性相關性而互資訊係數能夠很好地度量各種相關性,但是計算相對複雜一些,好在很多toolkit裡邊都包含了這個工具 如sklearn的mine 得到相關性之後就可以排序選擇特徵了 2 ...

特徵工程 清洗資料

我們在進行機器學習的時候,採用的資料樣本往往是向量 特徵向量 而我們的原始資料並不是以向量的形式呈現給我們的,這是便需要將資料對映到特徵 直接對映便ok 雖然機器學習是根據浮點值進行的訓練,但是不需要將整數6轉換為6.0,這個過程是預設的 好多時候,有的特徵是字串,比如此前訓練的加利福尼亞房產資料集...

資料探勘 特徵工程

特徵工程 常見的特徵工程包括 總結 1 特徵工程的主要目的是將資料轉換為能更好地表示潛在問題的特徵,從而提高機器學習的效能。比如,異常值處理為了去除雜訊,填補缺失值可以加入先驗知識等。2 特徵構造屬於特徵工程的一部分,目的是為了增強資料的表達。3 如果特徵是匿名特徵,並不知道特徵相互之間的關聯性,這...