當我們進行機器學習演算法時,首先做的第一步是對資料進行提取特徵,而在機器學習中一般有兩種思路來提公升原始資料的表達:
1.表示學習:
為了提高機器學習系統的準確率,我們就需要將輸入資訊轉換為有效的特徵,或者更一般性稱為表示。如果有一種演算法可以自動地學習出資料有效的特徵,並提高最終機器學習模型的效能,那麼這種學習就是可以叫做表示學習(representation learning),也叫特徵學習。
2.特徵工程:
主要指對於資料的人為處理提取特徵,有時候也代指「洗資料」。
不難看出,兩者的主要區別在於前者是「學習的過程」,而後者被認為是一門「人為的工程」。用更加白話的方式來說,表示學習是從資料中自動抽取特徵或者表示的方法,這個學習過程是模型自主的。而特徵工程的過程是人為的對資料進行處理,得到我們認為的、適合後續模型使用的樣式。總的來說,表示學習是讓機器自動提取特徵,而特徵工程是人為的提取特徵。
表示學習:模型自動對輸入資料進行學習,得到更有利於使用的特徵(*可能同時做出了**)。代表的演算法大致包括:
深度學習,包括大部分常見的模型如cnn/rnn/dbn/gcn等,
某些無監督學習演算法,如主成分分析(pca)及自編碼器(autoencoder)通過對資料轉化而使得輸入資料更有意義,
某些樹模型可以自動的學習到資料中的特徵並同時作出**。
特徵工程:模型依賴人為處理的資料特徵,而模型的主要任務是**,比如簡單的線性回歸期待良好的輸入資料(如離散化後的資料)。
參考文章
1.2.
3.
特徵工程與表示學習 人工 vs 自動
正因為資料表示的重要性,機器學習一般有兩種思路來提公升原始資料的表達 特徵學習 featurelearning 又叫表示學習 representation learning 或者表徵學習,一般指的是自動學習有用的資料特徵 特徵工程 featureengineering 主要指對於資料的人為處理提取,...
特徵工程 特徵工程入門與實踐(一)
特徵工程 將資料轉換為能更好地表示潛在問題的特徵,從而提高機器學習效能。大體上,機器學習分為兩類 評估分類問題,可以採用交叉驗證法 from sklearn.linear model import logisticregression from sklearn.model selection imp...
機器學習 特徵工程 特徵篩選
1 冗餘 部分特徵相關度太高,消耗計算效能,影響決策樹分支的選擇。2 雜訊 部分特徵是對 結果有負影響 3 降維 減少特徵數量 降維,使模型泛化能力更強,減少過擬合 4 特徵選擇與降維的關係 特徵選擇只篩選掉原本特徵裡和結果 關係不大的,後者做特徵的計算組合構成新特徵。svd pca降維也能解決一定...