問題:
1、常用的特徵工程方式?
答:引用圖形:
參考:七種常用的特徵工程 總結的很好
1.對於不同的特徵該如何進行特徵工程?問題:(1)對於數值型特徵,採用特徵歸一化,目的是將所有的特徵統一到大致相同的我數值區間
(2)對於類別型特徵,先處理成數值型特徵,具體可以採用序號編碼(處理類別之間具有大小關係的資料),獨熱編碼(處理類別之間不具有大小關係的資料),二進位制編碼(維數少於獨熱編碼,節省儲存空間)
(3)對一階離散特徵兩兩組合,構成高階特徵,目的是提高複雜關係的擬合能力。
(4)文字特徵,採用詞袋模型和n-gram模型,主題模型,詞嵌入模型
2、淺層神經網路和深層神經網路的區別?
3、生成模型和另外一種什麼模型?
4、遷移學習和生成對抗網路?
5、神經網路的簡單描述?
6、降維方法有哪些,和矩陣分解的關係,例如在組合特徵中學習的引數維數變多有什麼處理方法,?
為什麼採用這樣的處理方法?
7、什麼叫梯度提公升決策樹?
特徵工程 特徵工程入門與實踐(一)
特徵工程 將資料轉換為能更好地表示潛在問題的特徵,從而提高機器學習效能。大體上,機器學習分為兩類 評估分類問題,可以採用交叉驗證法 from sklearn.linear model import logisticregression from sklearn.model selection imp...
特徵工程 特徵歸一化
為了消除資料特徵之間的量綱影響,需要對特徵進行歸一化 normalization 處理,使得不同特徵處於同乙個數量級,具有可比性 2.1 線性函式歸一化 min max scaling 對原始資料進行線性變換,使結果對映到 0,1 的範圍內,實現對原始資料的等比縮放。歸一化公式 其中,x為原始資料,...
特徵工程總結(一
一 資料 data 若資料質量差 有空值 null values 錯誤 wrong value 離群值 outlier 容易造成分析結果不正確 若資料在目標欄位上分布不平衡,容易造成模型無法建置 若訓練資料太少,容易造成模型不穩定及效能不彰 二 屬性 attribute 重要屬性是否收集完整,不重要...