盧總 - 特徵選擇方法彙總
特徵選擇三種方法:
直接看sklearn**:
首先做ohe
y = labelbinarizer(
).fit_transform(y)
做完之後y
yy的shape是n×k
n\times kn×k
observed = safe_sparse_dot(y.t, x)
# n_classes * n_features
k,n
×n,m
k,n\times n,m
k,n×n,
m 形成乙個k×m
k\times m
k×m的矩陣,表示每個類別對應的特徵之和
最後算卡方的**:
def
_chisquare
(f_obs, f_exp)
:"""fast replacement for scipy.stats.chisquare.
version from with additional
optimizations.
"""f_obs = np.asarray(f_obs, dtype=np.float64)
k =len(f_obs)
# reuse f_obs for chi-squared statistics
chisq = f_obs
chisq -= f_exp
chisq **=
2with np.errstate(invalid=
"ignore"):
chisq /= f_exp
chisq = chisq.
sum(axis=0)
return chisq, special.chdtrc(k -
1, chisq)
自變數對因變數的相關性
aa是觀測,e
ee是期望, 其shape都是k×m
k\times m
k×m
自變數有n
nn種取值,因變數有m
mm種取值,考慮自變數等於i
ii且因變數等於j
jj的樣本頻數的觀察值與期望的差距,構建統計量
特徵選擇彙總(未完)
tf 詞頻,tf 文字中出現這個詞的數量 文字總詞數。idf 逆文件頻率,idf log 文字總數 出現這個詞的文字數 1 思想 頻率高詞的貢獻度大,但是乙個詞分布的文字數越少,貢獻越大,比如 的 的tf很大,但是df很小。反例1 比如文字有兩類,乙個特徵只在乙個類所有文字出現,另乙個類完全不出現,...
特徵選擇方法
特徵獲取過程 特徵獲取定義的角度 特徵獲取要解決的兩個問題 啟發式方法為一種近似演算法,具有很強的主觀傾向。隨機方法是一種相對較新的方法,細分為完全隨機方法和概率隨機方法兩種。總的說來,上述三類中只有窮舉法能保證最優,但耗時並且計算複雜度很高,後兩者以效能為代價換取簡單 快速的實現,但不能保證最優。...
特徵選擇方法
特徵獲取過程 特徵獲取定義的角度 特徵獲取要解決的兩個問題 啟發式方法為一種近似演算法,具有很強的主觀傾向。隨機方法是一種相對較新的方法,細分為完全隨機方法和概率隨機方法兩種。總的說來,上述三類中只有窮舉法能保證最優,但耗時並且計算複雜度很高,後兩者以效能為代價換取簡單 快速的實現,但不能保證最優。...