Python例項第2講特徵提取整合方法

在現實場景的例子裡，有很多從資料集提取特徵的方法。通常，將幾種特徵提取方法組合使用會收到更好的效果。本例顯示怎樣使用函式featureunion組合特徵。這裡要用到scikit-learn自帶資料集——「鳶尾花資料集」。

「鳶尾花(iris)資料集」位於datasets裡，是由著名統計學家sir ronald fisher在2023年收集整理的資料集，作為機器學習演算法的基準資料集而聞名。它包括3個品種的鳶尾花(iris setosa, iris virginica and iris versicolor), 每個品種50個樣本。每個樣本有4個特徵，分別是

特徵值是正浮點數，單位是厘公尺。目標變數是鳶尾花的類別（iris setosa（山鳶尾）、iris versicolour（雜色鳶尾），iris virginica（維吉尼亞鳶尾））。

下面顯示iris的一部分特徵資料

target資料

首先，從scikit-learn裡匯入必需的模組與函式。

from sklearn.pipeline import pipeline, featureunion
from sklearn.model_selection import gridsearchcv
from sklearn.svm import svc
from sklearn.datasets import load_iris
from sklearn.decomposition import pca
from sklearn.feature_selection import selectkbest

載入iris資料集，並且將特徵資料和目標資料分成兩個物件。

iris = load_iris()
x, y = iris.data, iris.target

建立包括兩個主成分的主成分物件pca. 主成分是一種重要的線性降維方法，它的基本原理是通過對資料進行奇異值分解(singular value decomposition), 實現將高維資料投影到低維空間，從而降低了特徵的維數。

pca = pca(n_components=2)

建立最大分數特徵選擇器selection. 它的基本原理是根據方差分析計算類標籤與特徵之間的f值，進而選擇f值最大的特徵。

selection = selectkbest(k=1)

組合pca與單變數選擇器，建立特徵選擇估計量。

combined_features = featureunion([("pca", pca), ("univ_select", selection)])

引數是元組(tuples)型的，在每乙個元組裡，前一半是轉換器的名字，後一半是轉換器。建立估計量後，使用它的組合特徵轉換資料集。

x_features = combined_features.fit(x, y).transform(x)

建立線性核函式的c-支援向量分類器。

svm = svc(kernel="linear")

建立combined_features和svm轉換器的管道(pipeline), 最終得到乙個估計量。在管道裡，連續地應用轉換。管道的中間步必須是轉換，即執行擬合與估計方法。最終的估計量僅僅需要執行估計。使用引數memory儲存管道裡的轉換器。建立管道的目的是把不同的步驟集合起來，經設定不同的引數，一併進行交叉驗證。

pipeline = pipeline([("features", combined_features), ("svm", svm)])

最後，在三種特徵提取方法上做網格搜尋。

param_grid = dict(features__pca__n_components=[1, 2, 3],
features__univ_select__k=[1, 2],
svm__c=[0.1, 1, 10])
grid_search = gridsearchcv(pipeline, param_grid=param_grid, verbose=10)
grid_search.fit(x, y)
print(grid_search.best_estimator_)

Python例項第2講特徵提取整合方法

python時域訊號特徵提取

NLP實踐系列 2 特徵提取

nlp 特徵提取 task2

Python例項第2講 特徵提取整合方法

python時域訊號特徵提取

NLP實踐系列 2 特徵提取

nlp 特徵提取 task2

相關推薦

Python例項第2講特徵提取整合方法