DS ML 特徵工程筆記

2021-08-18 05:37:07 字數 1184 閱讀 7277

ds&ml_關聯分析筆記

ds&ml_分類演算法筆記之支援自動機svm模型

ds&ml_分類演算法筆記之隨機森林、梯度提公升樹、xgboost模型

ds&ml_分類演算法筆記之k-近鄰、kd-tree模型

ds&ml_降維演算法筆記之主成分分析pca模型

ds&ml_分類演算法筆記之樸素貝葉斯模型

ds&ml_聚類演算法筆記之k-means模型

ds&ml_分類演算法筆記之決策樹模型

ds&ml_分類演算法筆記之邏輯回歸模型

部分** 加入了我自己的理解和總結,全文偏理論,若追求**請轉去該文章。

特徵工程,是一項工程活動,目的是最大限度地從原始資料中提取特徵以供演算法和模型使用。以期減少演算法模型受到的(如雜訊的)干擾。

有一句話叫做資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已。可見特徵工程的重要性。

要實現我們的目標需要哪些資料:基於業務進行理解,盡可能找出對因變數有影響的所有自變數

可用性評估

如何獲取這些特徵

如何儲存

特徵清洗

組合或統計屬性判定

補齊可對應的預設值

資料取樣

方法

預處理缺失值

資料變換

基於指數函式的

基於多項式的

box-cox變換,box-cox變換是統計建模中常用的一種資料變換,用於連續的響應變數不滿足正態分佈的情況。box-cox變換,變換之後,可以一定程度上減小不可觀測的誤差和**變數的相關性。

多個特徵

特徵與目標的相關性

特徵選擇方法分類

相關係數

卡方檢驗

資訊增益、互資訊

資訊增益

遞迴特徵消除法

embedded(整合法):先使用某些機器學習的演算法和模型進行訓練,得到各個特徵的權值係數,根據係數從大到小選擇特徵。類似於filter方法,但是是通過訓練來確定特徵的優劣。

基於決策樹模型的特徵選擇法

深度學習

降維lda線性判別分析法,本身也是乙個分類模型。

embeddded中提到的基於l1懲罰項的模型

衍生變數

對原始資料加工,生成有商業意義的變數。如通過每次登入的相關資訊登陸表衍生出」最近30天的登入次數「這個變數。

分解類別屬性

分箱/分割槽

交叉特徵

特徵工程筆記

雖然說特徵工程很大程度上是經驗工程,跟具體業務相關,但是我們可以根據一些思路來進行,以下是我在實踐過程中總結出來的一些思路,希望能給大家帶來一點啟發。使用資料視覺化工具對資料進行概覽 0.1 對原始資料進行概覽 常用的概覽方法 dataset.describe 檢視每種屬性的總數,平均值,標準差,2...

特徵工程 筆記

常用的兩種資料型別 1 結構化資料。結構化資料型別可以看作關係型資料庫的一張表,每一列都有清晰的定義,包含數值型 類別型兩種基本型別,每一行資料代表乙個樣本資訊 為了消除資料特徵之間的量綱影響,我們需要對特徵進行歸一化處理,使的不同指標之間具有可比性,否則分析出來的結果會傾向於數值差別比較大的特徵 ...

機器學習 特徵工程筆記

對於某個特定任務來說,如何找到最佳資料表示,稱之為特徵工程 feature engineering 分類變數 one hot編碼與dummy variable python 實現在我另一篇部落格連線 連續變數離散化 特徵離散化 discretization 也叫分箱 bining 與上文不同的是,離...