特徵選擇與稀疏學習

2021-08-02 23:48:39 字數 2384 閱讀 3184

特徵選擇:重要的資料預處理過程。在現實機器學習任務中,獲取資料之後通常先進行特徵選擇,此後在訓練學習器。why?

特徵選擇必須確保不丟失重要特徵,否則後續的學習過程會因為丟失重要資訊而無法獲得好的效能。給定資料集,如任務不同,則相關特徵很可能不同。因此,特徵選擇中的無關特徵是指與當前學習任務無關的特徵。

冗餘特徵:它們所包含的資訊能從其它資訊推演出來。例如:長寬高,底面積,體積。

既然有這麼多特徵:如何才能選擇出乙個比較好的特徵子集呢?

最優子集搜尋方法有二

環節二:子集評價

過濾式方法先對資料集進行特徵選擇,然後再訓練學習器,特徵選擇過程與後續學習器無關;即先對特徵進行「過濾」,然後用過濾後的特徵來訓練模型。

relief(relevant features)是一種著名的過濾式特徵選擇方法,該方法設計了乙個「相關統計量」來度量特徵的重要性。

具體做法是對每個訓練樣本 xi 找到和它同乙個分類的最近鄰樣本 xj,以及和它不是乙個分類的最近鄰樣本 xk。如果 diff(xi, xj)t 表示 xi 和 xj 在屬性 t 上的差值,那麼相關統計量計算的就是:diff(xi, xk)的平方 與 diff(xi, xj)的平方的差值在所有樣本上的平均

很直觀的,乙個重要的屬性應該使得樣本在這個屬性上與自己同一分類的樣本盡可能接近,而與不同分類的樣本盡可能遠。所以相關統計量在乙個屬性上的值越大則說明該屬性的分類效能越強

過濾式特徵選擇的處理邏輯如下圖所示:

包裹式選擇直接把最終將要使用的學習器效能作為特徵子集的評價標準;根據學習器選擇最有利於效能、「量身打造」的特徵子集

一般而言,由於包裹式特徵選擇方法直接針對給定學習器進行優化,因此從最終的學習效能來看,包裹式方法比過濾式方法更好,當另一方面,由於在特徵選擇過程中需多次訓練學習器,因此包裹式選擇的計算開銷一般要比過濾式選擇大得多

具體做法(簡化)是:

lvw演算法簡單明瞭,但是由於是使用隨機子集篩選,並且每次篩選都要重新計算學習器誤差,若 a 和 t 很大時,演算法可能會長時間都達不到停止條件。即若有執行時間限制,則可能會得不到解。

包裹式特徵選擇的處理邏輯如下圖所示:

不同於前兩種特徵選擇方式將特徵的選擇過程和學習器的訓練過程分開,嵌入式特徵選擇是將特徵選擇過程與學習器訓練過程融為一體,兩者在同乙個優化過程中完成;即在學習器訓練過程中自動化的進行了特徵選擇。

比如決策樹在分枝的過程中,就是使用的嵌入式特徵選擇方法,其內在還是根據某個度量指針對特徵進行排序。

資料集可以以矩陣表示,每一行為乙個樣本,每一列為乙個屬性。特徵選擇所考慮的問題是特徵具有「稀疏性」,即矩陣中的許多列與當前學習任務無關,我們需要通過特徵選擇去除這些列。

我們現在考慮另一種稀疏性:在資料集 d 所對應的矩陣中存在很多零元素,但這些零元素並不是以整列、整行形式存在的。當樣本具有稀疏表示時,對學習任務有不少好處,比如稀疏表示的資料更容易線性可分。同時,稀疏表示的資料在儲存上的負擔不大。

那麼我們可以通過將資料轉換為「恰當稀疏」的形式,獲得稀疏表示的好處,簡化學習任務。這種為普通稠密表達的樣本找到合適的字典,將樣本轉化為稀疏表示形式,從而使學習任務得以簡化,模型複雜度得以降低,通常稱為「字典學習」(dictionary learning),亦稱「稀疏編碼」(sparse coding)。

這兩個稱謂稍有差別,「字典學習」更側重於學得字典的過程,而「稀疏編碼」更側重於將樣本稀疏表達的過程,不過這兩者都是演算法同乙個優化求解過程中完成的,因此可以不做進一步區分。

稀疏表示的具體的過程簡單描述如下:

在上述字典學習過程中,使用者能通過設定詞彙量 k 的大小來控制字典的規模,從而影響稀疏程度

在現實任務中,我們常希望能根據部分資訊來恢復全部資訊。會擁有這種需求的原因是因為,在實踐中為了便於資料的傳輸、儲存,人們通常會將資料進行壓縮,這有可能會損失一部分資訊,而傳輸的過程中又可能會丟失一部分資訊。這時候擁有根據接收到的受損的資料來恢復全部資料的能力就很重要了,而壓縮感知為解決此類問題提供了新思路。

壓縮感知的核心思想是:一般來說丟失了部分資訊的資料是無法恢復為原始資料的,但是如果將原始資料通過字典學習表示成稀疏表示時,卻可以比較好的進行復原。這是因為稀疏性使得未知因素的影響大大的減少。

與特徵選擇、稀疏表示不同,壓縮感知關注的是如何利用訊號本身的稀疏性,從部分觀測樣本中恢復原訊號。通常認為,壓縮感知分為「感知測量」和「重構恢復」這兩個階段。

「感知測量」關注如何對原始訊號進行處理以獲得其稀疏表示,這方面涉及我們前邊提的特徵選擇、稀疏表示等內容

「重構恢復」關注的是如何從少量觀測中恢復原訊號,這才是壓縮感知的精髓,當我們談到壓縮感知時,通常是指這部分。

第十一章 特徵選擇與稀疏學習

11.1子集搜尋與評價 1 特徵選擇 我們將屬性稱為 特徵 對當前學習任務有用的特徵稱為 相關特徵 沒有什麼用的屬性稱為 無關特徵 從給定集合中選擇出相關特徵子集的過程,稱為 特徵選擇 2 在機器學習任務中,先進行特徵選擇,再訓練學習器的原因 1 我們在現實任務中經常會遇到維數災難問題,這是由於屬性...

西瓜書 第11章 特徵選擇與稀疏學習

特徵選擇是乙個重要的資料預處理過程,去除不相關的屬性,可以減輕維數災難,並且降低學習任務的難度。特徵選擇過程必須確保不丟失重要特徵。需要去除的特徵如無關特徵和冗餘特徵 冗餘特徵有時能簡化問題,具體問題具體分析 1 子集搜尋 前向搜尋 假定特徵子集最優,再把與剩餘的各個特徵子集組合出評估,如果最優,則...

第十一章 特徵選擇和稀疏學習

11.1子集搜尋和評價 所謂子集搜尋就是乙個物體有很多屬性,但是對當前學習任務來說,可能只有少部分屬性是重要的,這叫 相關特徵 沒什麼用的叫 無關特徵 從特徵集中選出 相關特徵 叫特徵選擇。兩個原因要特徵選擇 維數災難 降低學習難度。兩個關鍵環節 1 如何根據評價結果取獲取下乙個候選特徵子集?前向搜...