特徵選擇方法彙總

2021-10-20 07:30:06 字數 1566 閱讀 2360

盧總 - 特徵選擇方法彙總

特徵選擇三種方法:

直接看sklearn**:

首先做ohe

y = labelbinarizer(

).fit_transform(y)

做完之後y

yy的shape是n×k

n\times kn×k

observed = safe_sparse_dot(y.t, x)

# n_classes * n_features

k,n

×n,m

k,n\times n,m

k,n×n,

m 形成乙個k×m

k\times m

k×m的矩陣,表示每個類別對應的特徵之和

最後算卡方的**:

def

_chisquare

(f_obs, f_exp)

:"""fast replacement for scipy.stats.chisquare.

version from with additional

optimizations.

"""f_obs = np.asarray(f_obs, dtype=np.float64)

k =len(f_obs)

# reuse f_obs for chi-squared statistics

chisq = f_obs

chisq -= f_exp

chisq **=

2with np.errstate(invalid=

"ignore"):

chisq /= f_exp

chisq = chisq.

sum(axis=0)

return chisq, special.chdtrc(k -

1, chisq)

自變數對因變數的相關性

aa是觀測,e

ee是期望, 其shape都是k×m

k\times m

k×m

自變數有n

nn種取值,因變數有m

mm種取值,考慮自變數等於i

ii且因變數等於j

jj的樣本頻數的觀察值與期望的差距,構建統計量

特徵選擇彙總(未完)

tf 詞頻,tf 文字中出現這個詞的數量 文字總詞數。idf 逆文件頻率,idf log 文字總數 出現這個詞的文字數 1 思想 頻率高詞的貢獻度大,但是乙個詞分布的文字數越少,貢獻越大,比如 的 的tf很大,但是df很小。反例1 比如文字有兩類,乙個特徵只在乙個類所有文字出現,另乙個類完全不出現,...

特徵選擇方法

特徵獲取過程 特徵獲取定義的角度 特徵獲取要解決的兩個問題 啟發式方法為一種近似演算法,具有很強的主觀傾向。隨機方法是一種相對較新的方法,細分為完全隨機方法和概率隨機方法兩種。總的說來,上述三類中只有窮舉法能保證最優,但耗時並且計算複雜度很高,後兩者以效能為代價換取簡單 快速的實現,但不能保證最優。...

特徵選擇方法

特徵獲取過程 特徵獲取定義的角度 特徵獲取要解決的兩個問題 啟發式方法為一種近似演算法,具有很強的主觀傾向。隨機方法是一種相對較新的方法,細分為完全隨機方法和概率隨機方法兩種。總的說來,上述三類中只有窮舉法能保證最優,但耗時並且計算複雜度很高,後兩者以效能為代價換取簡單 快速的實現,但不能保證最優。...