1. 西瓜書《機器學習》課後答案——chapter11_11.1 relief特徵選擇演算法
2. 試寫出relief-f的演算法描述。
解答:
3. relief演算法是分別考察每個屬性的重要性。設計乙個能考慮每一對屬性重要性的改進演算法。輸入:資料集d
過程:
計算每個類別的比例;
所有特徵對應的統計量δj
=0;
for i=1:m
得到xi
最近的同類樣本xi
,nh ,以及其餘類別中的每乙個類別的最近樣本xi
,l,n
m
for j=1:d
δj = δj
−diff(x
ji,x
ji,n
h)2+
∑l≠y
ipldiff(x
ji,x
ji,l
,nm)
2
輸出:
所有特徵對應的統計量
δ
解答:
主要改變在於特徵對的統計量的計算,在計算diff()函式上,此時可以把它的輸入看做兩個向量,計算其歐氏距離來體現樣本和其鄰居之間在特徵對上的距離。輸入:資料集d
過程:
所有兩兩特徵組合對應的統計量δj
k=0 ;
for i=1:m
得到xi
最近的同類樣本xi
,nh ,不同類別中的最近樣本xi
,nm
for j=1:d
for k=1:d
δjk= δj
k−diff((
xji,
xki)
,(xj
i,nh
,xki
,nh)
)2+diff((
xji,
xki)
,(xj
i,nm
,xki
,nm)
)2輸出:
所有兩兩特徵對應的統計量矩陣
δ
4. 試為lvw設計乙個改進演算法,即便有執行時間限制,該演算法也一定能給出解。
解: 給出乙個總的迭代次數約束,當總迭代次數達到約束值時,立即終止演算法。
5. 結合圖11.2,舉例說明l1
正則化在何種情形下不能產生稀疏解。
解答:
對照圖11.2,圖中的拋物線和l0
等值線相交在座標軸上,除了這條等值線之外,這條拋物線只和這條等值線外面的等值線相交,所以導致在這條拋物線上,座標軸上的交點上的代價值最小。
如果拋物線和這條等值線裡面的等值線相交,那麼這條拋物線上代價最小的點就不是座標軸上的這點了。此時不產生稀疏解。
6. 試析嶺回歸與支援向量機的聯絡。
解答:
第130頁的(6.35)是支援向量機的優化問題,優化目標是最小化合頁損失以及w的l2
範數平方;而嶺回歸的優化目標(11.6)是最小化誤差平方和以及w的l2
範數平方。
7. 試述直接求解l0
範數正則化會遇到的困難。
解答: ||
x||0
=|| ,向量
x 的l0
範數是非零元素的個數。
如果以l
0 作為正則化項,那麼很自然地,就是希望w中的非零元素個數最少,即0元素最多。
但是在書中第252頁中的邊注中提到,l0
範數不連續,導致難以求解優化問題。
8. 給出求解l1
範數最小化問題中的閉式解(11.14)的詳細推導過程。
解答: xk
+1=arg
minxl2
||x−
z||2
2+λ|
|x||
1.(11.13) x
ik+1
=⎧⎩⎨
⎪⎪⎪⎪
⎪⎪⎪⎪
⎪⎪⎪⎪
⎪⎪⎪⎪
zi−λ
l,0,
zi+λ
l,zi
>λl
|zi|
≤λlz
i<−λ
l.(11.14)
題目意思就是怎麼從(11.13)推出(11.14)。 令j
=l2|
|x−z
||22
+λ||
x||1
=l2∑
i=1d
(xi−
zi)2
+λ∑i
=1ds
ign(
xi)x
i, j
在xi=
0處是不可導的;在x≠
0 處是可導的,這時可以應用梯度法。為了求
j 的最小值,可以計算j(
0)以及j
在x≠0
時的最小值,然後比較,取較小的那個為最優值,對應的
x 為最優解。
最小化j
等價於分別最小化ji
(xi)
=l2(
xi−z
i)2+
λsig
n(xi
)xi.
當xi<
0 時,求導
∂ji∂
xi=l
22(x
i−zi
)−λ=
l(xi
−zi)
−λ=0
, 得到(
xi)∗
=λl+
zi,
綜上,用公式表達的話,就是(11.14)。
9. 試述字典學習與壓縮感知對稀疏性利用的異同。
解答:
字典學習是通過最小化重構誤差學習例項的稀疏表示,以利用稀疏表示在學習任務中的優勢。比如,書中提到「線性支援向量機之所以能在文字資料上有很好的效能,恰是由於文字資料在使用字頻表示後具有高度的稀疏性,使大多數問題變得線性可分」。
壓縮感知是希望利用取樣訊號重構出稀疏表示,再根據稀疏表示恢復原始訊號。壓縮感知關注的是利用訊號本身所具有的稀疏性,從部分觀測樣本中恢復原訊號。
10. 試改進(11.15),以學習出具有分組稀疏性的字典。
解答:
參考文章:group sparse coding
這篇文章是以影象處理作為例子,討論了分組稀疏性。假設現在已知字典矩陣(即所有的基向量)了,則影象中每個patch可以由基向量的線性組合表示,並且通過l1
正則化項可以控制為稀疏表示。但是之前的方法都是單獨對每個patch進行稀疏表示的,沒有考慮到整個影象的稀疏表示,畢竟patch的稀疏表示只是影象的中間步驟。
作者通過mixed-norm正則化方法解決了這一問題。分組稀疏編碼把一張影象中的所有patches看做乙個分組,每個patch看做乙個例項。通過求解以下優化問題對一張中的所有patches進行稀疏編碼:
minaq(
a,g,
d),
其中q(a
,g,d
)=12
∑i∈g
||xi
−∑j=
1|d|
αijd
j||2
+λ∑j
=1|d
|||α
j||p
. 其中g
為乙個分組,
d 為字典矩陣,a=
|d|j
=1為乙個分組中所有patches的係數矩陣,αj
=(α1
j,α2
j,⋯,
α|g|
j)表示d
j 基向量對每個例項的貢獻。第二項是mixed norm,用於控制影象的稀疏表示。
對乙個影象,當得到稀疏矩陣
a 後,對每個αj
求範數,得到乙個|d
| 維的向量,這就是影象的稀疏表示。
對所有分組g=
得到對應的係數矩陣a=
之後,通過下面的優化問題得到字典表示
d : q(
a,d)
=∑m=
1nq(
am,g
m,d)
+γ∑k
=1|d
|||d
k||p
, γ 項可以控制向字典中新增新單詞或者移除**力低的單詞。 固定a
,通過最小化q(
a,d)
即可得到字典表示。
西瓜書 機器學習《一》
泛化能力 學習的模型適應新樣本的能力。奧卡姆剃刀原則 自然科學研究中常用的原則。即 若有多個假設和觀測一致,那麼就選擇最簡單的假設。連線主義 黑箱模型,例如 神經網路,不可解釋性,引數手工等調整 符號主義 決策理論的學習技術,例如決策樹學習 以資訊理論為基礎,以資訊熵的最小化為目標。統計學習 svm...
西瓜書機器學習筆記 一
記錄學習機器學習的過程,方便自己以後查閱 機器學習是一門致力研究如何通過計算的手段,利用經驗來改善系統自身的效能的學科 在計算機系統中,經驗通常以 資料 形式存在,因此,機器學習所研究的主要內容是關於在計算機上從資料中產生 模型 的演算法,即 學習演算法 learning algorithm 通過經...
機器學習西瓜書課後習題答案 1 緒論
1.訊息推送 比如當我搜尋 機器學習 之後,再開啟某些網頁的時候,會推送有關機器學習培訓的廣告 或參考 以下是部落格的結果 1.1求版本空間 首先看版本空間的定義,這篇文章寫的很好 概況說來,版本空間就是從假設空間剔除了與正例不一致和與反例一致的假設,它可以看成是對正例的最大泛化。現在只有西瓜1和西...