一、如何做特徵工程?
1.排序特徵:基於7w原始資料,對數值特徵排序,得到1045維排序特徵
2. 離散特徵:將排序特徵區間化(等值區間化、等量區間化),比如採用等量區間化為1-10,得到1045維離散特徵
3. 計數特徵:統計每一行中,離散特徵1-10的個數,得到10維計數特徵
4. 類別特徵編碼:將93維類別特徵用one-hot編碼
5. 交叉特徵:特徵之間兩兩融合,x+y、x-y、x*y、x^2+y^2等,由於時間複雜度較高,暫時跳過
二、如何做特徵選擇?
多維特徵一方面可能會導致維數災難,另一方面很容易導致過擬合,因此需要做降維處理,常見的降維方法有奇異值分解svd, pca( pca 提假設資料呈高斯分布),t-sne(計算複雜度很高)。
除了降維,特徵選擇的方法很多:最大資訊係數(mic)、皮爾森相關係數(衡量變數間的線性相關性)、正則化方法(l1,l2)、基於模型的特徵排序方法。比較高效的是最後一種方法,即基於學習模型的特徵排序方法,這種方法有乙個好處:模型學習的過程和特徵選擇的過程是同時進行的,因此我們採用這種方法。
基於決策樹的演算法(如 random forest,boosted tree)在模型訓練完成後可以輸出特徵的重要性,我們用 xgboost 來做特徵選擇,xgboost 是 boosted tree 的一種實現,效率和精度都很高,在各類資料探勘競賽中被廣泛使用。
學習資料
特徵工程到底是什麼?
第五課 文法
1.名詞 場所 行 來 帰 使用移動動詞時,移動的方向用助詞 表示。京都 行 我要去京都。日本 來 我來到了日本。帰 我要回家。注 助詞 讀作 2.行 行 完全否定疑問詞所問的全部範疇時,用助詞 與否定形式一起使用。行 也不去。何 食 什麼也不吃。第6課 沒有任何人在。第10課 3.名詞 交通工具 ...
C語言第五課
主要內容 二維陣列 字串陣列 多維陣列 理解 一 二維陣列 有兩個下標的陣列稱為二維陣列 定義 型別修飾符 陣列名 常量表示式1 常量表示式2 第一維的長度 第二維的長度 示例 定義乙個2行3列的二維陣列 int array 2 3 這是乙個標準的二維陣列 二維陣列的元素也稱為雙下標變數 0 1 2...
C語言第五課
c函式若不宣告型別,則預設為 int 型 在函式中,指標可以 被調函式 修改 主調函式 1 int func int a main 2 void func int num main int num 2 func int b 野指標會 指向任一地方 int pum printf x pum 指標偏移的...