特徵工程是機器學習任務中非常核心的部分,特徵工程質量的好壞直接影響著模型訓練結果的好壞。
常見的特徵工程可以分為特徵抽象、特徵重要性評估、特徵衍生和特徵降維等幾個方面。
特徵抽象是指將原始資料抽象成演算法(或模型)可以理解的資料。針對不同的資料型別,主要有如下特徵抽象方法:
(1)時間戳。主要是針對具有鮮明時間序列的特徵資料,將源資料中的年月日格式(或其他格式)的資料轉換成以某一天為基準的數字(如2017-01-01為1)。這樣可以將兩個日期之間的時間段表示為兩個日期數字的差值。
(2)二值類問題。二值類資料較為容易處理,比如說可以將使用者性別是男還是女、使用者是否購買了某件商品、使用者的信用是否良好分別賦值為1和0。
(3)多值有序類問題。多值有序資料往往可以反映特徵的輕重緩急程度。如考核資料中成績特徵有不合格、合格、良好、優秀等維度,信用資料中使用者信用等級特徵有較差、一般、良好、優秀等維度,辦公事務中的待辦事務特徵有一般、加急、特急等維度。針對這類特徵資料,可以將其不同維度的資料賦值為0、1、2、3。
在通過特徵抽象得到一組演算法(或模型)可以理解的特徵資料之後,有時候還需要了解每個特徵對模型訓練效果的影響程度大小,進而對不同的特徵賦予不同的權重,這樣能夠有效提高模型訓練效果。常見的特徵重要性評估方法有回歸模型係數和資訊熵。如下所示:
(1)回歸模型係數評估法。此種方法主要針對線性模型。首先,對特徵資料執行歸一化操作,然後根據邏輯回歸模型係數的大小評估各特徵的重要性大小。
(2)資訊熵評估法。資訊熵評估法的基礎來自資訊增益原理,其評估特徵重要性的標準是看該特徵能為模型帶來多少資訊,帶來的資訊越多,則該特徵越重要,為其賦予的權重越高。
特徵衍生是指利用現有的特徵進行某種組合,生成新的具有特定含義的特徵。新生成的特徵對目標列的影響大小可以通過特徵重要性評估來獲得。
例如,現有乙份使用者在某電商平台上的購物行為資料,如下表所示:
使用者id
產品id
購物行為
日期101100
6月5日
10211
02月3日
10312
17月8日
10413
09月10日
10514
18月15日
任務目標:通過上面的這份資料(1-9月的購物資料),**在接下來的3個月(10-12月)裡使用者會購買哪些產品。
為了能夠達成既定目標,上面已有資料所具有的特徵維度是遠遠不夠的,所以可以通過特徵衍生的方式來構造一些重要的衍生特徵。
特徵降維是一種從高維度資料中挖掘關鍵字段資訊的技術。在保留原始資料中大部分關鍵資訊的前提下,還達到了降低資料維度、減少資料雜訊和計算量的作用,尤其適用於影象識別和文字分析領域。常見的特徵降維技術主要有以下幾種:
(1)主成分分析。主成分分析(principal component analysis,pca)通過線性對映投影的方法,將高維的資料對映到了低維空間中,在投影過程中盡可能保證投影維度上的資料方差最大。
(2)線性判別分析。線性判別分析(linear discriminant analysis,lda)的基本思想是將高維的模式樣本投影到最佳鑑別向量空間,以達到抽取分類資訊和壓縮特徵空間維數的效果。投影後保證模式樣本在新的子空間中有最佳的可分離性,即有最大的類間距離和最小的類內距離。
(3)區域性嵌入分析。區域性嵌入分析(locally linear embedding,lle)是一種非線性降維方法,能夠保持資料的流形結構。
機器學習之特徵工程
在工業界一直流行著一句話,資料的質量決定了模型的上線了,而特徵工程與模型的選擇只是盡可能的去逼近這個上線,當我們在資料無法改變的情況,特徵工程的優化便顯得尤為重要。我們輸入模型中,模型只認識資料,並不知道某一列所代表的含義,例如樹模型,它只會按照一定的規則去不停的分支,並不知道分支所代表的含義,而特...
機器學習之特徵工程
特徵工程是將原始資料轉化為更好代表 模型的潛在問題的特徵的過程,從而提高了對位置資料的 準確性。其包括特徵構建 特徵提取 特徵選擇三部分。資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已,成功的結果往往源自最開始對資料的處理。tf term frequency,詞的頻率,即出現的次...
機器學習之特徵工程
一 特徵抽象 特徵抽象是指將資料來源抽象演算法可以理解的資料,我們期望的資料是一組可以表達資料某種特性的數字。下面對幾種資料型別抽象舉例 1 時間戳 以某一天為基準值,採用演算法算出某數值,其他的採用和該基準值的差距。2 二值類問題 文字或其他描述的二值問題,可以量化為0和1表示。3 多值有序問題 ...