特徵工程基本API（sklearn版）

本部落格僅僅用於鞏固學習，如有錯誤還望指出（如能幫助別人自是大善）

什麼是特徵呢？

個人理解就是這個物件的某些資訊是某個類別的主要分類依據，比如狗是不會生蛋的，所以我們說狗是胎生動物，反之雞是卵生動物，這裡的是否胎生就是特徵。

特徵抽取，在訓練模型之前必須要將訓練的物件的特徵抽取。將人們理解的特徵翻譯成為機器理解的特徵。

字典特徵抽取

from sklearn.feature_extraction import dictvectorizer

文字特徵抽取（基於空格作為分詞標誌，中文文章需要單獨通過jieba進行分割）

from sklearn.feature_extraction.text import countvectorizer

文字特徵抽取2，基於tf-idf 方式，更加適用於文字抽取

from sklearn.feature_extraction.text import tfidftransformer

將多個特徵合成，減少特徵數量，但是也可能會減少部分精確率

特徵選擇

from sklearn.feature_selection import variancethreshold

pac主成分分析，用於特徵數量100+

from sklearn.decomposition import  pca

預處理是將特徵進行預先的處理，防止在某些演算法裡面（k近鄰等），某些特徵數值較大影響後面的訓練

歸一化，缺點：容易受到異常資料的影響，

from sklearn.preprocessing import minmaxscaler

標準化 ,缺點：需要大量的資料。優點：不容易受到異常資料的影響

from sklearn.preprocessing import standardscaler

特徵工程基本流程

過程包含了特徵提取特徵構建特徵選擇。特徵工程的目的是篩選出更好的特徵，獲取更好的訓練資料，大多數工程師們做的事情基本是在資料倉儲裡搬磚，不斷地資料清洗，再乙個是分析業務不斷地找特徵。資料採集前需要明確採集哪些資料，一般的思路為哪些資料對最後的結果有幫助？資料我們能夠採集到嗎？資料清洗包括缺...

特徵工程（1）特徵工程是什麼？

特徵是資料中抽取出來的對結果有用的資訊，可以是文字或者資料。特徵工程是使用專業背景知識和技巧處理資料，使得特徵能在機器學習演算法上發揮更好的作用的過程。過程包含了特徵提取特徵構建特徵選擇等模組。特徵工程的目的是篩選出更好的特徵，獲取更好的訓練資料。因為好的特徵具有更強的靈活性，可以用簡單的模型...

特徵工程特徵交叉交叉特徵特徵組合

關於特徵交叉的作用以及原理，我這裡不進行詳細描述，因為大佬們已經說得很清楚了，這裡就附上幾個連線特徵組合特徵交叉 feature crosses 結合sklearn進行特徵工程對於特徵離散化，特徵交叉，連續特徵離散化非常經典的解釋下面說怎樣製作和交叉特徵多項式生成函式 sklearn.pr...

特徵工程基本API（sklearn版）

特徵工程基本流程

特徵工程（1） 特徵工程是什麼？

特徵工程 特徵交叉 交叉特徵 特徵組合

相關推薦

特徵工程（1）特徵工程是什麼？

特徵工程特徵交叉交叉特徵特徵組合