本系列介紹機器學習中的在實際應用和理論研究中的一些重要的方向。這些文章能給大家起到拋磚引玉的作用。一些細節或者深入的討論可在每篇博文最後列出的文獻中找到。本篇博文介紹特徵向量選取。在機器學習中, 特種向量選取是整個機器學習系統中非常重要的一步。
1. 特徵向量選取 vs. 特徵向量提取
請注意特徵向量的選取有別於特徵向量提取。前者的英文是feature selection, 而後者是feature extraction. 特徵向量提取是直接作用於原始資料上的。比如,給定一組文件,我們的任務是要做文件分類。直接將文件輸入給分類器是無法工作的,因為每篇文件有不同的字不一樣,字的數目也不一樣。而絕大多數的分類器只是接受標準化的矩陣格式的輸入,比如每一行是一篇文件,每一列是文件的屬性(特徵)。 將原始文件轉化為標準的矩陣格式輸入的過程就可看作是特徵向量提取。特徵向量提取之後,通常特徵向量的個數非常多,並且包含有很多沒有用的特徵(或者說對後邊的分類器沒有用),也包含了許多冗餘的特徵向量。此時,從特徵向量提取後所得的特徵向量中,選擇對分類器最有用的和最重要的特徵向量的過程就叫做特徵向量選取。
2. 非線性特徵向量選取 vs sparse coding
如今比較火的機器學習的演算法(lasso,sparse svm等)在實現**的同時,也聲稱可以實現特性向量選取。其實質便是在特徵向量的權重係數上加上了l0-norm或者更便於計算的l1-norm。 即所謂的sparse coding的技術。類似的方法還有dictionary learning 和factorization model。儘管dictionary learning 和factorization model當中的dictionary/basis已經不是原始的特徵向量,但是他們在學dictionary/bais的係數時,也是採用了sparse coding的約束。 但是,值得一提的是這些方法在提取特徵向量時,只能挖掘特徵向量之間的線性關係。當特徵向量具有非線性相關的時候,這一類方法便失去了功效。
最經典的特徵向量非線性相關的例子便是xor問題(如下圖所示)。特徵向量x1和x2單獨來看的話,他們對於區分class1和class2都不起作用。因此他們對於sparse coding的方法,都將被視為是不相關的特徵向量。然而,對於非線性特徵向量選取的方法(文獻),特徵向量x1和x2將被聯合起來一起分析其重要程度,因此他們都將被選作重要的特徵向量。
後續及參考文獻
關於特徵向量選取的系統介紹,看參考jianbo yang的博士**。此人 ( 現在在杜克大學做博后 。對於過濾法和封裝法他都提出過自己的方法。其中封裝法與神經網路,支援向量機做結合。其研究成果發表於tnn和kdd等期刊與會議。
[1] jian-bo yang, 「feature selection and model selection for supervised learning algorithms」 phd thesis, 2011.
[2] guyon and a. elisseeff. "an introduction to variable and feature selection".journal of machine learning
research, 2003
機器學習4 特徵向量與特徵值
a為n階矩陣,若數 和n維非0列向量x滿足ax x,那麼數 稱為a的特徵值,x稱為a的對應於特徵值 的特徵向量。式ax x也可寫成 a e x 0,並且 e a 叫做a 的特徵多項式。當特徵多項式等於0的時候,稱為a的特徵方程,特徵方程是乙個齊次線性方程組,求解特徵值的過程其實就是求解特徵方程的解。...
機器學習之特徵組合 特徵交叉
特徵交叉是資料特徵的一種處理方式,通過特徵組合的方式增加特徵的維度,以求得更好的訓練效果。在實際場景中,我們常常遇到這要的情況,線性分類起無法在如下樣本中 無法畫一條直線將下列黃點和藍點分開 所以特徵組合是一種讓線性模型學習到非線性特徵的方式 例如在廣告模型中用到了大量的特徵組合,因為lr是廣告推廣...
機器學習 之 Hog特徵
方向梯度直方圖 histogram of oriented gradient,hog 特徵是一種在計算機視覺和影象處理中用來進行物體檢測的特徵描述子。它通過計算和統計影象區域性區域的梯度方向直方圖來構成特徵。它是一種能夠很好地描述影象區域性紋理或邊緣的方向密度分布的一種特徵。hog特徵結合 svm分...