機器學習模型的生命週期可以分為以下步驟:
要構建模型就必須要對資料進行預處理。特徵轉換是這個過程中最重要的任務之一。在資料集中,大多數時候都會有不同大小的資料。為了使更好的**,必須將不同的特徵縮小到相同的幅度範圍或某些特定的資料分布。
什麼時候需要特徵轉換
什麼時候不需要特徵轉換
大多數基於樹型模型的整合方法不需要特徵縮放,因為即使我們進行特徵轉換,對於熵的計算也不會發生太大變化。所以在這樣的演算法中,除非特別需要,一般情況下不需要縮放。
特徵轉換的方法
特徵轉換的方法有很多種,本文中將總結一些有用和流行的方法。
當輸入資料集的特徵在範圍之間有很大差異或以不同的測量單位(如高度、重量、公尺、英里等)進行測量時,應使用標準化。我們將所有變數或特徵帶到相似的規模。其中均值為 0,標準差為 1。
在標準化中,我們用平均值減去特徵值,然後除以標準差,得到完全標準的正態分佈。
簡單來說,最小最大縮放將特徵值縮小到 0 到 1 的範圍。或者我們也可以指定縮放的範圍。
對於normalization(歸一化):會將特徵值減去其最小值,然後除以特徵範圍(特徵範圍=特徵最大值-特徵最小值)。
如果資料集有太多異常值,則標準化和歸一化都很難處理,在這種情況下,可以使用 robust scaler 進行特徵縮放。
從名字就可以看出 robust scaler 對異常值很健壯
特徵工程方法
常用方法總結 其中過濾法幾大檢驗的區別 假設x為解釋變數,y為被解釋變數,我們想確定x的取值對y是否有影響 1 x,y都為分類變數,比如學歷和購買之間的關係,卡方檢驗 互資訊比較合適 2 x為連續變數,y為分類變數,比如身高和購買之間的關係,f檢驗比較合適 3 x,y都為連續變數,相關係數即可 互資...
pyspark特徵工程常用方法(一)
本文記錄特徵工程中常用的五種方法 minmaxscaler,normalization,onehotencoding,pca以及quantilediscretizer 用於分箱 原有資料集如下圖 首先將c2列轉換為vector的形式 vecassembler vectorassembler inpu...
工程中常用的特徵選擇方法
當資料預處理完成後,我們需要選擇有意義的特徵輸入機器學習的演算法和模型進行訓練。為什麼?1 降低維度,選擇重要的特徵,避免維度災難,降低計算成本 2 去除不相關的冗餘特徵 雜訊 來降低學習的難度,去除雜訊的干擾,留下關鍵因素,提高 精度 3 獲得更多有物理意義的,有價值的特徵 不同模型有不同的特徵適...