稀疏變數的處理

2021-08-22 11:44:35 字數 342 閱讀 4576

經常,對於高維的資料集,降維的第一步,就是刪除那些包含相同資訊的變數,就是變數取值很多相同的或者改變了的方差很小。

想刪除第一步,就是,先問為什麼?

當然是模型不接受你這種的變數,好比如回歸分析,把很多值相同的變數作為自變數,對於模型的擬合效果有影響。

那麼,要刪,當然先找到哪些屬於稀疏變數。

nearzerovar為caret包中函式的兩個引數就是理論。

1.uniquecut:是不同取值數目和樣本量的比值,freqcut:是最常見的取值頻數和第二常見的取值頻數之間的比值

該函式返回的結果是:資料集中稀疏變數所在的各列。

同樣可以通過單變數視覺化來判斷,進而剔除。

稀疏矩陣的處理

在矩陣中,若數值為0的元素數目遠遠多於非0元素的數目,並且非0元素分布沒有規律時,則稱該矩陣為稀疏矩陣 與之相反,若非0元素數目佔大多數時,則稱該矩陣為稠密矩陣 通常認為矩陣中非零元素的總數比上矩陣所有元素總數的值小於等於0.05時,則稱該矩陣為稀疏矩陣。該比值稱為這個矩陣的稠密度 列印矩陣 壓縮矩...

python 稀疏陣列的處理

話說python 還真是方便。用c要寫n長的 python百行左右就解決了 usr bin env python coding utf 8 資料結構 處理稀疏陣列 import copy def subsparse dict sparse a,dict sparse b 兩個字典相減 dict sp...

機器學習 稀疏矩陣的處理

一 稀疏矩陣的定義 對於那些零元素數目遠遠多於非零元素數目,並且非零元素的分布沒有規律的矩陣稱為稀疏矩陣 sparse 人們無法給出稀疏矩陣的確切定義,一般都只是憑個人的直覺來理解這個概念,即矩陣中非零元素的個數遠遠小於矩陣元素的總數,並且非零元素沒有分布規律。二 稀疏矩陣的壓縮儲存 由於稀疏矩陣中...