機器學習 特徵工程之子集搜尋與評價

2021-08-09 09:03:46 字數 411 閱讀 7583

1、特徵:描述目標物件的屬性

2、特徵型別

b) 無關特徵:對於當前學習任務無用的屬性,即與目標物件無關的特徵

c) 冗餘特徵:其包含的資訊可通過其它特徵推演

4、特徵選擇的理由

a) 緩解維數災難問題,該動機類似於特徵降維

b) 去除不相關特徵往往會降低學習任務的難度

1、背景:從初始特徵集合中選取乙個包含了所有重要資訊的特徵子集,若沒有任何領域知識作為先驗假設,那就只好遍歷所有可能子集,可能遭遇組合**

3、子集搜尋(貪心搜尋減少計算,尋找區域性最優而非全域性)

b) 後向搜尋:從完整的特徵集合開始,逐漸減少無關特徵的策略

4、  子集評價:常用資訊增益評價子集,類似決策樹(可用來做特徵選擇)

5、  特徵選擇 = 子集搜尋機制 + 子集評價機制

機器學習特徵工程之特徵預處理

通過特定的統計方法 數學方法 講資料轉換成演算法要求的資料。數值型資料 歸一化標準化 缺失值類別型資料 one hot編碼 時間型別 時間的切分 在對資料進行異常值 缺失值 資料轉換等處理後,我們需要從當前資料集中選出有意義的特徵,然後輸入到演算法模型中進行訓練。對資料集進行特徵選擇主要基於以下幾方...

機器學習實戰 特徵工程之特徵構建

特徵構建是指通過研究原始資料樣本,結合機器學習實戰經驗和相關領域的專業知識,思考問題的潛在形式和資料結構,人工創造出新的特徵,而這些特徵對於模型訓練又是有益的並且具有一定的工程意義。特徵構建的方式主要有單列操作 多列操作 分組 聚合操作這三種。在pandas庫中,主要利用map 函式進行單列的操作。...

機器學習 特徵工程之特徵提取

第二部分 特徵提取 備註 1.資料決定了機器學習的上限,而演算法只是盡可能逼近這個上限 這句話很好的闡述了資料在機器學習中的重要性。大部分直接拿過來的資料都是特徵不明顯的 沒有經過處理的或者說是存在很多無用的資料,那麼需要進行一些特徵處理,特徵的縮放等等,滿足訓練資料的要求。2.特徵工程的過程 從資...