scspm的**中提到了碼書的過完備(over-complete)。一開始沒有太在意過完備有什麼問題,今天想了想把這個概念弄明白了。
特徵學習的過程中,假設學習的碼書d的大小為m。每個碼字的維數為n。每個原始特徵yi的維數也為n。假設原始特徵投影到碼書上以後的特徵向量是xi(m維的向量),那麼用d和xi對yi重建的過程就是:yi=d*xi。
coding的過程就變成了已知yi和d,求xi的過程了。顯然這是乙個非齊次方程組求解的問題,方程組有解的條件是rank(d)≤m,其中取等號時方程組有唯一解。過完備的定義是m>>n,所以此時rank(d)≤n這裡和這裡)中稍微介紹過,這裡就不再廢話。
特徵選擇的過程,也是一樣的。假設此時有n個樣本,每個樣本有個measurement(這個measurement可以是regression中的output,也可以是classification中的label)。每個樣本的特徵是p維的,n個樣本的特徵組成n*p的矩陣a。目標是對這p維特徵做乙個選擇,選擇的係數用x記錄。此時將如下圖所示:
這與第乙個圖是等價的,特徵選擇過程中的over-complete是指p>>n,不加約束的情況下x將有無窮多組解,所以和特徵學習一樣,加係數的約束。xi為0表示相應的特徵不被選擇。(而xi<0,等價於取乙個|xi|,而將相應的特徵的值取負號。)
如果measurement不是一維的咋辦?比如multi-label的問題。我猜測把x的列維數也擴充套件成相應大小,然後根據label之間的correlation加低秩等約束吧。
特徵選擇和特徵抽取
特徵提取演算法分為特徵選擇和特徵抽取兩大類。特徵選擇 不改變原始的特徵資料,只是選擇一部分出來。其中常用的特徵選擇演算法有 1 df document frequency 文件頻率 df 統計特徵詞出現的文件數量,用來衡量某個特徵詞的重要性 2 mi mutual information 互資訊法 ...
機器學習中特徵降維和特徵選擇的區別
在machine learning中,特徵降維和特徵選擇是兩個常見的概念,在應用machine learning來解決問題的 中經常會出現。對於這兩個概念,很多初學者可能不是很清楚他們的區別。很多人都以為特徵降維和特徵選擇的目的都是使資料的維數降低,所以以為它們是一樣的,曾經我也這麼以為,這個概念上...
機器學習 特徵選擇
特徵選擇是特徵工程中的重要問題 另乙個重要的問題是特徵提取 坊間常說 資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已。由此可見,特徵工程尤其是特徵選擇在機器學習中占有相當重要的地位。通常而言,特徵選擇是指選擇獲得相應模型和演算法最好效能的特徵集,工程上常用的方法有以下 1.計算每...