過程包含了特徵提取、特徵構建、特徵選擇。特徵工程的目的是篩選出更好的特徵,獲取更好的訓練資料,大多數工程師們做的事情基本是在資料倉儲裡搬磚,不斷地資料清洗,再乙個是分析業務不斷地找特徵。
資料採集前需要明確採集哪些資料,一般的思路為:哪些資料對最後的結果**有幫助?資料我們能夠採集到嗎?
資料清洗:包括缺失值處理,補齊可對應的預設值。異常值檢測與處理。異常值檢測與處理就是要去除髒資料。不可信的樣本丟掉,預設值極多的字段考慮不用。
資料取樣的方法有隨機取樣和分層抽樣。但是隨機取樣會有隱患,因為可能某次隨機取樣得到的資料很不均勻,更多的是根據特徵採用分層抽樣。分層抽樣是要先把所有元素按某種特徵或標誌(比如年齡、性別、職業或地域等)劃分成幾個型別或層次,再在其中採用前兩種方法抽取乙個子樣本,所有子樣本構成了總的樣本。
1. 幅度調整/歸一化:python中會有一些函式比如preprocessing.minmaxscaler()將幅度調整到 [0,1] 區間。
2.統計值:包括max, min, mean, std等。python中用pandas庫序列化資料後,可以得到資料的統計值。
3.離散化:把連續值轉成非線性資料。pandas.cut() 可以直接把資料分成若干段。
特徵工程基本API(sklearn版)
本部落格僅僅用於鞏固學習,如有錯誤 還望指出 如能幫助別人自是大善 什麼是特徵呢?個人理解 就是這個物件 的某些資訊 是某個類別的主要分類依據,比如狗是不會生蛋的,所以我們說狗是胎生動物,反之雞是卵生動物,這裡的是否胎生 就是特徵。特徵抽取,在訓練模型之前必須要將訓練的物件的特徵抽取。將人們理解的特...
特徵工程(1) 特徵工程是什麼?
特徵是資料中抽取出來的對結果 有用的資訊,可以是文字或者資料。特徵工程是使用專業背景知識和技巧處理資料,使得特徵能在機器學習演算法上發揮更好的作用的過程。過程包含了特徵提取 特徵構建 特徵選擇等模組。特徵工程的目的是篩選出更好的特徵,獲取更好的訓練資料。因為好的特徵具有更強的靈活性,可以用簡單的模型...
特徵工程 特徵交叉 交叉特徵 特徵組合
關於特徵交叉的作用以及原理,我這裡不進行詳細描述,因為大佬們已經說得很清楚了,這裡就附上幾個連線 特徵組合 特徵交叉 feature crosses 結合sklearn進行特徵工程 對於特徵離散化,特徵交叉,連續特徵離散化非常經典的解釋 下面說怎樣製作和交叉特徵 多項式生成函式 sklearn.pr...