特徵工程(1) 特徵工程是什麼?

2021-08-01 00:14:57 字數 526 閱讀 7175

特徵是資料中抽取出來的對結果**有用的資訊,可以是文字或者資料。特徵工程是使用專業背景知識和技巧處理資料,使得特徵能在機器學習演算法上發揮更好的作用的過程。過程包含了特徵提取、特徵構建、特徵選擇等模組。

特徵工程的目的是篩選出更好的特徵,獲取更好的訓練資料。因為好的特徵具有更強的靈活性,可以用簡單的模型做訓練,更可以得到優秀的結果。「工欲善其事,必先利其器」,特徵工程可以理解為利其器的過程。

而有這麼一句話在業界廣泛流傳:資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已。那特徵工程到底是什麼呢?顧名思義,其本質是一項工程活動,目的是最大限度地從原始資料中提取特徵以供演算法和模型使用。通過總結和歸納,人們認為特徵工程包括以下方面:

特徵處理是特徵工程的核心部分,sklearn提供了較為完整的特徵處理方法,包括資料預處理,特徵選擇,降維等。首次接觸到sklearn,通常會被其豐富且方便的演算法模型庫吸引,但是它的特徵處理庫也十分強大!

什麼是特徵工程???

資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已 不管通過哪種方式獲取資料,總會有那麼一些資料無法直接投入生產使用中,這些不可直接使用的資料必須經過資料處理。特徵工程可以通俗的理解為把獲取的資料處理為機器能夠讀懂的資料 更為精確的將特徵工程指的是把原始資料轉變為模型的訓練資料的過程...

特徵工程 特徵交叉 交叉特徵 特徵組合

關於特徵交叉的作用以及原理,我這裡不進行詳細描述,因為大佬們已經說得很清楚了,這裡就附上幾個連線 特徵組合 特徵交叉 feature crosses 結合sklearn進行特徵工程 對於特徵離散化,特徵交叉,連續特徵離散化非常經典的解釋 下面說怎樣製作和交叉特徵 多項式生成函式 sklearn.pr...

特徵工程之特徵選擇

在前一篇文章中我介紹了一些資料預處理的方法,原始資料在經過預處理之後可以被演算法處理了,但是實際中可能有一些特徵是沒有必要的,比如在中國採集的一些資料,那麼國籍就都是中國,其實也就沒有意義了,反映在統計量上就是方差過小,也就是樣本在這個特徵上變化很小。還有一種情況是特徵和最後的結果相關性很小,也就是...