關於機器學習中的特徵共程

2021-10-05 20:07:06 字數 489 閱讀 2208

在機器學習的模型訓練中,特徵工程是非常重要的環節,雖然很多機器學習的相關書籍都把重要的篇幅放在了演算法上,但是在實際的應用中,特徵工程是非常重要的環節,甚至可以說是決定模型結果的關鍵。關於特徵工程有一下幾個問題需要搞清楚:1,為什麼要進行特徵工程 2,進行特徵工程的方法有哪些。

1,為什麼要進行特徵工程

以非常經典的房價**為例,影響房價的因素有很多,原始的資料集大約有幾十個特徵,那麼我們這些特徵我們都需要嗎,可能有些因素與最終的房價相關度並不高,也有可能有的特徵直接有冗餘,這時就需要我們去掉一些特徵。也有可能需要我們去根據現有特徵去創造新的特徵,面對不同的問題會有不同的解決方案,不可一概而論。

特徵工程可以說實在尋找一種好的資料表示,初學者可能會有疑問,如果不進項特徵工程會怎樣,加入把原始的特徵全部放到模型中,那麼可能有些特徵與最終的標籤無關,或者關聯很小,這樣會使訓練出來的模型過擬合,也就是特徵太多,模型太複雜,這樣訓練出來的模型往往在訓練集上表現很好,但是在測試集中往往表現不佳。這和資料中有大量異常值類似

機器學習2 1 機器學習中的特徵選擇

特徵提取演算法分為特徵選擇和特徵抽取兩大類 常採用特徵選擇方法。常見的六種特徵選擇方法 df document frequency 文件頻率 df 統計特徵詞出現的文件數量,用來衡量某個特徵詞的重要性 mi mutual information 互資訊法 互資訊法用於衡量特徵詞與文件類別直接的資訊量...

機器學習中的特徵工程詳解

1.1 探索性資料分析 exploratory data analysis 描述性分析 descriptive analysis 常用的函式有 呼叫pandas包 head info describe isnull corr 等 1.2 四種資料級別 2.1 缺失值處理 注意 缺失值的填補應該在劃分...

機器學習中特徵工程總結

構造更多 的特徵 檢視資料列名 print data train.columns 檢視資料每列資訊 數目,空置和型別 print data train.info 檢視每列統計資訊 數目 均值 方差 最小值 25 分位值 50 分位值 75 分位值和最大值 print data train.descr...