訓練集和測試集是分開降維還是整體降維?

2021-10-25 08:26:53 字數 401 閱讀 1598

線性降維

非線性降維

pca (無監督)

lle(區域性線性嵌入)

lda(有監督)

kernel-pca(核主成份分析)

對於線性方法(例如pca) 而言, 它旨在尋找乙個高維空間到低維空間的對映矩陣或對映關係, 當對映矩陣找到後便可直接將其應用到其他資料集進行降維(通俗點理解就是直接套用矩陣公式得到降維結果),因此,這種降維方式下可以單獨降維;(當然,也可以整體降維)

而非線性方法(例如lle) 則需要在保持某種區域性結構的條件下實現資料的整體降維, 此時需要所有的資料集合到一起然後才能實現資料降維。

另外說一下,對於pca來說,降維之後的特徵不是原來特徵的提取,而是對特徵的一種線性組合,特徵已經發生了變化。

訓練集 驗證集和測試集

訓練集 驗證集和測試集這三個名詞在機器學習領域極其常見,但很多人並不是特別清楚,尤其是後兩個經常被人混用。在有監督 supervise 的機器學習中,資料集常被分成2 3個,即 訓練集 train set 驗證集 validation set 測試集 test set ripley,b.d 1996...

訓練集 驗證集和測試集

驗證集既不能通過直接將泛化誤差作為了解模型泛化能力的訊號,因為在部署環境和訓練模型之間往復,代價很高,也不能使用模型對訓練資料集的擬合程度來作為了解模型泛化能力的訊號,因為我們獲得的資料往往不乾淨。更好的方式就是將資料分割成兩部分 訓練集和測試集。我們可以使用訓練集的資料來訓練模型,然後用測試集上的...

訓練集和測試集的區別

一般來說,訓練集用來估計模型中的引數,使模型能夠反映現實,進而 未來或其他未知的資訊,而測試集用來評估模型的 效能。例如 已知1000個小朋友的體重和身高資料,想建立體重與身高的線性回歸模型。我們可以用900個小朋友的身高和體重資料 訓練集 來擬合模型中的引數,進而 另外100個小朋友的體重 已知身...