一 特徵工程

2021-09-11 21:36:29 字數 640 閱讀 8185

問題:

1、常用的特徵工程方式?

答:引用圖形:

參考:七種常用的特徵工程  總結的很好

1.對於不同的特徵該如何進行特徵工程? 

(1)對於數值型特徵,採用特徵歸一化,目的是將所有的特徵統一到大致相同的我數值區間

(2)對於類別型特徵,先處理成數值型特徵,具體可以採用序號編碼(處理類別之間具有大小關係的資料),獨熱編碼(處理類別之間不具有大小關係的資料),二進位制編碼(維數少於獨熱編碼,節省儲存空間)

(3)對一階離散特徵兩兩組合,構成高階特徵,目的是提高複雜關係的擬合能力。

(4)文字特徵,採用詞袋模型和n-gram模型,主題模型,詞嵌入模型

問題:

2、淺層神經網路和深層神經網路的區別?

3、生成模型和另外一種什麼模型?

4、遷移學習和生成對抗網路?

5、神經網路的簡單描述?

6、降維方法有哪些,和矩陣分解的關係,例如在組合特徵中學習的引數維數變多有什麼處理方法,?

為什麼採用這樣的處理方法?

7、什麼叫梯度提公升決策樹?

特徵工程 特徵工程入門與實踐(一)

特徵工程 將資料轉換為能更好地表示潛在問題的特徵,從而提高機器學習效能。大體上,機器學習分為兩類 評估分類問題,可以採用交叉驗證法 from sklearn.linear model import logisticregression from sklearn.model selection imp...

特徵工程 特徵歸一化

為了消除資料特徵之間的量綱影響,需要對特徵進行歸一化 normalization 處理,使得不同特徵處於同乙個數量級,具有可比性 2.1 線性函式歸一化 min max scaling 對原始資料進行線性變換,使結果對映到 0,1 的範圍內,實現對原始資料的等比縮放。歸一化公式 其中,x為原始資料,...

特徵工程總結(一

一 資料 data 若資料質量差 有空值 null values 錯誤 wrong value 離群值 outlier 容易造成分析結果不正確 若資料在目標欄位上分布不平衡,容易造成模型無法建置 若訓練資料太少,容易造成模型不穩定及效能不彰 二 屬性 attribute 重要屬性是否收集完整,不重要...