林軒田 12 非線性變換

2021-09-19 04:27:53 字數 2392 閱讀 6709

[toc]

對於非線性的資料分類,如果我們使用線性模型,就會使得ein很大,分得不好。

現在我們考慮如何用二次方程(圓的方式)來進行separate: 我們可以使用半徑平方為0.6的圓可以將它分開 。

這裡我們進行非線性的變換,實現座標系的變換。從x空間變到z空間。在x系裡面圓圈可分的情況在z系裡面變得線性可分了。在x系裡面可以用圓分開則在z系裡面一定可以線性可分。

但是在z空間裡面可以用直線分開的情形,在x空間裡面就可能是圓、橢圓、雙曲線等情況,所以說在z空間裡面的直線在x空間裡面對應的是特殊二次曲線(圓心在座標原點),三個引數。

把所有的二次項、所有的一次項和常數項都要包含進來,這樣在z空間裡面的直線對應x空間的二次hypothesis

這個權值w需要6個引數

所以我們如果能夠在z空間裡面找到好的線性分割,就能在x空間裡找到好的二次曲線分割。

首先把原始在x空間的資料變換到z空間的資料。

在z空間中得到好的線**知機。

在z空間對得到的模型g進行反變換得到x空間應該有的二次曲線模型。

而實際上第三步並不是取逆變換,而是考察乙個點在x空間的分類的時候,把這個點先轉換到z空間,然後看它是哪個分類,我們就知道它在x空間裡面應該是哪個分類了。

之前從原始特徵用領域知識變換到具體特徵就是這樣。

從d維度特徵的二次x空間轉化為一次z空間是多少個維度。

d維q次特徵空間轉化到1次空間時的特徵維度是 $$ c_^ $$

證明:d維q次特徵空間轉化到1次空間時的特徵維度是$$ c_^ $$

可以把問題轉化為求d個變數組成的q次多執行緒裡面,各種子項總共有多少個。轉化為相同的問題就是:

把k個相同的物體分給d個人,不一定每個人都分到,也不一定分完,問有多少種分法?

那麼這個問題是比較複雜的,我們高中的時候學的問題是下面這個型別的:

問題1. 把k個相同物體分給d個人,每人最少1個,要求分完,那麼有幾種分法?

設第i個人分得$$ x_i $$個物體,則$$ 0 < x_i < k $$ 用我們熟悉的插板法,在k-1個間隙裡面插入d-1個板(分成d份),分法有

$$ c_^ $$

問題2. 把k個相同的物體分給d個人,不一定每個人都分到,但物體必須分完,問有多少種分法?

設第i個人分得$$ x_i $$個物體,則$$ 0leqslant x_i leqslant k $$,我們可以把它轉化一下

$$ x_1+x_2+...+x_d = k rightleftharpoons (x_1+1)+(x_2+1)+(x_3+1)+...+(x_d+1) = k+d $$

$$ 0leqslant x_i leqslant k rightleftharpoons 1 leqslant x_i+1 leqslant k+1 $$

可以認為把k+d個物體分給d個人,使用插板法 結果為

$$ c_^ $$

到這裡我們就可以把我們的問題轉化為這裡面相同的問題了,不分完可以理解為還有乙個潛在的第k+1個人,把最後剩下的物體分給它。所以這個問題就轉化為 把k個物體分給d+1個人,不一定每個人都分到,但物體必須分完。也轉化為把k+d+1個物體分給d+1個人,每人必須分到,物體必須分完,所以結果為 $$ c_^ $$

應該選擇怎樣的模型。

模型越複雜 $$ e_ $$越小,如果你選擇的模型的維度比較高,會使得$$ e_ $$ 會使得 $$e_ / e_$$ 差別會很遠

林軒田 15 驗證法

驗證資料的選擇 validation set dval 留1法做交叉驗證 k fold 交叉驗證 其他資料 演演算法選方面選擇 pla,pocket,linear regression,logistic regression iteration的次數 100,1000 每步大小 1,0.01 特徵t...

林軒田 15 驗證的方法

演演算法選方面選擇 pla,pocket,linear regression,logistic regression iteration的次數 100,1000 每步大小 1,0.01 特徵transform linear線性的 quadratic二次的,poly 10 10次多項式,legendr...

機器學習技法 林軒田 課程總結

how can machines learn by embedding numerous features 1.線性svm,推導非條件目標,qp求解 2.對偶svm,非線性問題消除z域d 1依賴 3.kernel trick僅在x域計算 4.soft margin,n 5.klr,two level...