定義:將原始資料轉換為更好地代表**模型的潛在問題的特徵的過程,從而提高了對未知資料的**準確性。
內容:主要有三部分:
1、特徵抽取
2、特徵預處理
3、資料的降維
機器學習領域中所謂的降維就是指採用某種對映方法,將原高維空間中的資料點對映到低維度的空間中。降維的本質是學習乙個對映函式 f : x->y,其中x是原始資料點的表達,目前最多使用向量表達形式。 y是資料點對映後的低維向量表達,通常y的維度小於x的維度(當然提高維度也是可以的)。f可能是顯式的或隱式的、線性的或非線性的。
目前大部分降維演算法處理向量表達的資料,也有一些降維演算法處理高階張量表達的資料。之所以使用降維後的資料表示是因為:①在原始的高維空間中,包含有冗餘資訊以及噪音資訊,在實際應用例如影象識別中造成了誤差,降低了準確率;而通過降維,我們希望減少冗餘資訊所造成的誤差,提高識別(或其他應用)的精度。 ②又或者希望通過降維演算法來尋找資料內部的本質結構特徵。
1、資料降維的目的
資料降維,直觀地好處是維度降低了,便於計算和視覺化,其更深層次的意義在於有效資訊的提取綜合及無用資訊的擯棄。
2、資料降維的方法:1、定義
特徵選擇就是單純地從提取到的所有特徵中選擇部分特徵作為訓練集特徵,特徵在選擇前和選擇後可以改變值、也不改變值 ,但是選擇後的特徵維數肯定比選擇前小,畢竟我們只選擇了其中的一部分特徵。
2、特徵選擇的原因:
雜訊:部分特徵對**結果有影響
3、特徵選擇的主要方法:
4、過濾式
sklearn特徵選擇api:sklearn.feature_selection.variancethreshold
variancethreshold語法:
流程:1、初始化variancethreshold,指定閥值方差
2、呼叫fit_transform
from sklearn.feature_selection import variancethreshold
# 特徵選擇 -- 刪除低方差的特徵
defvar()
: var = variancethreshold(threshold=
0.0)
data = var.fit_transform([[
0,2,
0,3]
,[0,
1,4,
3],[
0,1,
1,3]
])print
(data)
return
none
if __name__ ==
"__main__"
: var(
)
1、pca的本質:pca是一種分析、簡化資料集的技術。
2、pca的目的:是資料維數壓縮,盡可能降低原資料的維數(複雜度),損失少量資訊。
3、pca的作用:可以削減回歸分析或者聚類分析中特徵的數量。
4、sklearn主成分分析api:
sklearn.decomposition
pca語法:
pca流程:
1、初始化pca,指定減少後的流程
2、呼叫fit_transform
from sklearn.decomposition import pca
# 主成分分析進行特徵降維
defpca()
: pca = pca(n_components=
0.9)
data = pca.fit_transform([[
2,8,
4,5]
,[6,
3,0,
8],[
5,4,
9,1]
])print
(data)
return
none
if __name__ ==
"__main__"
: pca(
)
機器學習 特徵降維
機器學習中的資料維度與真實世界的維度本同末離。機器學習中,通常需要將現實世界中的資料進行轉化,形成計算機能夠處理的資料向量的形式,而往往為了學習到較好的模型,需要的資料向量維度都是非常大的。從而導致了學習乙個模型或者演算法往往需要大量的資源的消耗,有時甚至產生維度災難的問題。因此,為了緩解這一問題,...
特徵工程(5) 降維
當特徵選擇完成後,可以直接訓練模型了,但是可能由於特徵矩陣過大,導致計算量大,訓練時間長的問題,因此降低特徵矩陣維度也是必不可少的。常見的降維方法除了上篇提到的基於l1懲罰項的模型以外,另外還有主成分分析法 pca 和線性判別分析 lda 線性判別分析本身也是乙個分類模型。pca和lda有很多的相似...
20191201 機器學習複習 特徵降維
降維 降低維度 維數 巢狀的維數 降維是二維陣列 降低特徵的個數 正是因為進行訓練的時候,我們都是使用特徵學習。如果特徵學習本身存在問題或者特徵之間關聯性比較強,對於演算法學習 會影響很大 降維的方法 特徵選擇 主成分分析 特徵選擇 資料中包含冗餘或相關變數 或稱特徵,屬性,指標 旨在從原有特徵中找...