特徵工程:去除資料中的雜質和冗餘,提取更有效的的特徵。更刻畫求解問題與**模型之間的關係。
主要的物件是面向數值特徵。
將資料同一到大致的數值空間。
優化方法中,如果資料的取值範圍差距過大的化,演算法在優化過程中,需要迭代更多次才能夠找到最優解。(隨機梯度下降的例子)
梯隊下降求解的模型需要歸一化處理。(線性回歸,邏輯回歸,支援向量機,神經網路等模型)
但是對於一些決策樹模型並不適用。主要是計算資訊增益的方式和歸一化無關。
線性歸一化(min-max scaling):就是線性變換對映到【0,1】空間。
零均值歸一化(z-score normalization):將原始資料對映到均值為0,標準查為1的分布上。
線性歸一化:
零均值歸一化:
男女,a,b,c,d這種按照類別劃分。
當然是因為很多演算法沒辦法處理字串資訊,必須轉化為數值型別才能夠工作。
序號編碼。
大小關係編號。例如:高中低——>一二三(實際中需要根據具體的場景來設定轉化的值)
one-hot:編碼成稀疏向量的形式。
使用稀疏向量節省空間。
有時候特徵維度比較高,需要降維。(高維度特徵帶來的問題,k鄰近演算法高維度特徵很測量有效距離;邏輯回歸模型引數的數量會隨著維度增加而增加,容易過擬合;只有部分資料對**,分類有用,配合特徵選擇來降維。高維度特徵計算比較慢)
二進位制編碼
用二進位制對類別對映,獲得乙個0、1向量,維度相對one-hot更少一點。
將離散的特徵做組合,形成新特徵。
決策樹尋找特徵的方法。gbdt.
詞袋模型:
是什麼?
忽略單詞出現的順序,將整段文字以單詞為單位切分開,每篇文章可以表示為乙個向量,向量的每一維度表示乙個單詞,權重反應了這個詞在文章中的重要程度。
怎麼計算權重?(tf-idf)
詞語之間會有相關性,這種劃分方法並不是乙個好的方法。
n-gram方法:
將片語作為單獨的特徵放到向量表裡面。很多詞語會有相似的含義,有時候會放到
特徵工程(1) 特徵工程是什麼?
特徵是資料中抽取出來的對結果 有用的資訊,可以是文字或者資料。特徵工程是使用專業背景知識和技巧處理資料,使得特徵能在機器學習演算法上發揮更好的作用的過程。過程包含了特徵提取 特徵構建 特徵選擇等模組。特徵工程的目的是篩選出更好的特徵,獲取更好的訓練資料。因為好的特徵具有更強的靈活性,可以用簡單的模型...
資料的特徵工程
1 匯入資料 2 刪除異常值 3 特徵構造 4 特徵篩選 過濾式 包裹式 嵌入式 stratidfiedkfold和kfold交叉驗證,都是將訓練集分成k份,其中k 1份的訓練集,1份的驗證集。不過特別的是stratifiedkfold將驗證集的正負樣本比例,保持和原始資料的正負樣本比例相同 在資料...
特徵工程 特徵交叉 交叉特徵 特徵組合
關於特徵交叉的作用以及原理,我這裡不進行詳細描述,因為大佬們已經說得很清楚了,這裡就附上幾個連線 特徵組合 特徵交叉 feature crosses 結合sklearn進行特徵工程 對於特徵離散化,特徵交叉,連續特徵離散化非常經典的解釋 下面說怎樣製作和交叉特徵 多項式生成函式 sklearn.pr...