本部落格僅僅用於鞏固學習,如有錯誤 還望指出(如能幫助別人自是大善)
什麼是特徵呢?特徵抽取,在訓練模型之前必須要將訓練的物件的特徵抽取。將人們理解的特徵 翻譯成為機器理解的特徵。個人理解 就是這個物件 的某些資訊 是某個類別的主要分類依據,比如狗是不會生蛋的,所以我們說狗是胎生動物,反之雞是卵生動物,這裡的是否胎生 就是特徵。
字典特徵抽取
from sklearn.feature_extraction import dictvectorizer
文字特徵抽取(基於空格作為分詞標誌,中文文章需要單獨通過jieba進行分割)
from sklearn.feature_extraction.text import countvectorizer
文字特徵抽取2,基於tf-idf 方式,更加適用於文字抽取
from sklearn.feature_extraction.text import tfidftransformer
將多個特徵合成,減少特徵數量 ,但是也可能會減少部分精確率
特徵選擇
from sklearn.feature_selection import variancethreshold
pac主成分分析,用於特徵數量100+
from sklearn.decomposition import pca
預處理是將特徵進行預先的處理,防止在某些演算法裡面(k近鄰等),某些特徵數值較大影響後面的訓練
歸一化 ,缺點:容易受到異常資料的影響,
from sklearn.preprocessing import minmaxscaler
標準化 ,缺點:需要大量的資料。優點:不容易受到異常資料的影響
from sklearn.preprocessing import standardscaler
特徵工程基本流程
過程包含了特徵提取 特徵構建 特徵選擇。特徵工程的目的是篩選出更好的特徵,獲取更好的訓練資料,大多數工程師們做的事情基本是在資料倉儲裡搬磚,不斷地資料清洗,再乙個是分析業務不斷地找特徵。資料採集前需要明確採集哪些資料,一般的思路為 哪些資料對最後的結果 有幫助?資料我們能夠採集到嗎?資料清洗 包括缺...
特徵工程(1) 特徵工程是什麼?
特徵是資料中抽取出來的對結果 有用的資訊,可以是文字或者資料。特徵工程是使用專業背景知識和技巧處理資料,使得特徵能在機器學習演算法上發揮更好的作用的過程。過程包含了特徵提取 特徵構建 特徵選擇等模組。特徵工程的目的是篩選出更好的特徵,獲取更好的訓練資料。因為好的特徵具有更強的靈活性,可以用簡單的模型...
特徵工程 特徵交叉 交叉特徵 特徵組合
關於特徵交叉的作用以及原理,我這裡不進行詳細描述,因為大佬們已經說得很清楚了,這裡就附上幾個連線 特徵組合 特徵交叉 feature crosses 結合sklearn進行特徵工程 對於特徵離散化,特徵交叉,連續特徵離散化非常經典的解釋 下面說怎樣製作和交叉特徵 多項式生成函式 sklearn.pr...