11.1子集搜尋與評價
1、特徵選擇:我們將屬性稱為「特徵」,對當前學習任務有用的特徵稱為「相關特徵」、沒有什麼用的屬性稱為「無關特徵」。從給定集合中選擇出相關特徵子集的過程,稱為「特徵選擇」。
2、在機器學習任務中,先進行特徵選擇,再訓練學習器的原因:(1)我們在現實任務中經常會遇到維數災難問題,這是由於屬性過多而造成的,若能從中選出重要特徵,使得後續學習過程僅需在一部分特徵上構建模型,則維數災難問題會大為減輕。(特徵選取和降維有相似的動機,他們是處理高維資料的兩大主流技術)。(2)去除不相關特徵往往會降低學習任務的難度,這就像偵探破案一樣,若將紛繁複雜的因素抽絲剝繭,只留下關鍵因數,則真想往往更易看清。
3、可行方法:先產生乙個「候選子集」,評價出它的好壞,基於評價結果產生下乙個候選子集,再對其進行評價,這樣持續下去,直至無法找到更好地候選子集為止。
4、子集搜尋:(1)「向前」子集搜尋法:給定特徵集合,我們可將每個特徵看做乙個候選子集,對這d個候選單特徵子集進行評價,假定最優,於是將作為第一輪的選定集;然後,在上一輪的選定集中加入乙個特徵,構成包含兩個特徵的候選子集,假定這d-1個候選兩特徵子集中最優,且優於,於是將作為本輪的選定集;假定在第k+1輪時,最優的特徵子集不如上一輪的候選定集,則停止生成子集並將上一輪選定的k特徵集合作為特徵選擇結果。這樣逐漸增加相關特徵的策略稱為「向前」搜尋。(2)「向後」子集搜尋法:類似的,若我們給定乙個完整的特徵子集,每次嘗試去掉乙個無關的特徵,這樣逐步減少的特徵的方法稱為「向後」搜尋。
5、子集評價:對於給定的資料集d,我們將其中的屬性子集a中根據不同的值劃分成為,每個子集中在樣本a上的取值相同,於是計算屬性子集a的資訊增益,資訊增益gain(a)越大,就意味著特徵子集a包含的有助於分類的資訊越多,於是對於每個候選特徵子集,我們可基於訓練資料集d來計算資訊增益以此作為評價準則。
11.2 過濾式選擇
relief:過濾式特徵選擇方法,該方法設計了乙個「相關統計量」來度量特徵的重要性.該統計量是乙個向量,其每個分量分別對應於乙個初始特徵,而特徵子集的重要性則是由子集中每個特徵所對應的相關統計量分量之和來決定,於是,最終只需指定乙個閾值r,然後選擇比 大的相關統計量分量所對應的特徵即可;也可指定欲選取的特徵個數k,然後選擇相關統計量分量最大的k個特徵。
確定相關統計量:若xi與其猜中近鄰xi,nh在屬性j上的距離小於xi與其猜錯近鄰xi,nm的距離,則說明屬性j對區分同類與異類樣本是有益的,於是增大屬性j所對應的統計量分量;反之,若xi與其猜中近鄰xi,nh在屬性j上的距離大於xi;與其猜錯近鄰xi,nm的距離,則說明屬性j起負面作用,於是減小屬性j所對應的統計量分量,最後,對基於不同樣本得到的估計結果進行平均,就得到各屬性的相關統計分量,分量值越大,則對應的屬性分類值越強。
11.3 包裹式選擇
包裹式選擇:與過濾式特徵選擇不考慮後續學習器不同,包裹式特徵選擇直接把最終將要使用的學習器的效能作為特徵子集的評價準則,換言之,包裹式特徵選擇的目的就是為給定學習器選擇最有利於其效能、「量身定做」的特徵子集。
11.4 嵌入式選擇與l1正則化
在過濾式和包裹式特徵選擇方法中,特徵選擇過程與學習器訓練過程有明顯的分別;與此不同,嵌入式特徵選擇是將特徵選擇過程與學習器訓練過程融為一體,兩者在同乙個優化過程中完成,即在學習器訓練過程中自動地進行了特徵選擇。
11.5 稀疏表示與字典學習
特徵選擇所考慮的問題是特徵具有「稀疏性」,即矩陣中的許多列與當前學習任務無關,通過特徵選擇去除這些列,則學習器訓練過程僅需要在較小的矩陣上進行,學習任務的難度可能有所降低,涉及的計算和儲存開銷會減少,學得模型的可解釋性也會提高。
11.6 壓縮感知
第十一章 特徵選擇和稀疏學習
11.1子集搜尋和評價 所謂子集搜尋就是乙個物體有很多屬性,但是對當前學習任務來說,可能只有少部分屬性是重要的,這叫 相關特徵 沒什麼用的叫 無關特徵 從特徵集中選出 相關特徵 叫特徵選擇。兩個原因要特徵選擇 維數災難 降低學習難度。兩個關鍵環節 1 如何根據評價結果取獲取下乙個候選特徵子集?前向搜...
讀書筆記《機器學習》 第十一章 特徵選擇與稀疏學習
11.1 子集搜尋與評價 11.2 過濾式選擇 11.3 包裹式選擇 11.4 嵌入式選擇與l1正則化 11.5 稀疏表示與字典學習 11.6 壓縮感知 特徵選擇 feature selection 從給定的特徵集合中選擇出相關特徵子集的過程。是乙個重要的資料預處理 data preprocessi...
第十一章 認識與學習BASH
系統支援的shell在 etc shells裡面 bash shell 的功能 1.命令修補能力 histroy 2.命令與檔案補全功能 3.命令別名設定功能 4.工作前景背景控制 5.支援萬用字元 type指令 變數的取用 echo 變數的設定規則 1.髮量不髮量內容以乙個等號 鏈結,如下所示 m...