周志華老師S4VM

2021-08-31 03:57:08 字數 1668 閱讀 6302

**:

1、s3vm

傳統半監督支援向量機通過探索未標記資料來規範。調整決策邊界,尋找最有的大間隔、低密度的超平面,比如s3vms、tsvm等半監督svm演算法,如圖所示,s3vm試圖找到乙個超平面,將有標記樣本能夠正確劃分,且穿過特徵空間中密度最低的區域;右圖即是s3vm尋找的理想超平面。

s3vm的目標函式如下, 其中損失函式是hinge loss,限制條件是保證未標註樣本的分布於標註樣本分佈一致。

因為給定少量的有標註點和大量無標註的點,可能存在不止乙個間隔較大的低密度分界線,如果只考慮乙個,可能會造成較大的損失。

2、s4vm:

不同於s3vm,s4vm關注多個可能存在的低密度分界,使用多個超平面,是一種整合學習方法。

起目標函式如上:其中正則項用來保證不同超平面之間具有一定的差異性,如果兩個超平面差異性越大,則**相同的數目越小,則函式值越小,m為懲罰係數,m越大,則要求超平面的差異性越大。

3、實現方式

因為s4vm的目標函式是非凸的,因此可能存在多個區域性最優解,如果使用梯度下降求解,則容易求解出區域性最優解而非全域性最優,基於詞,**提出兩種求解全域性最優的實現方式。

1、全域性模擬退火演算法

模擬退火演算法的主要思想是,在求解過程中,每次隨機出乙個新的x_new ,計算f(x_new)是否優於f(x),如果f(x_new)優於f(x),則接受x_new, 否則將以一定概率接受當前解,此概率設定為與全域性變數t(溫度)有關,溫度越高,則概率越大,在迭代過程中,溫度逐漸下降,接受的概率也逐漸降低。在求解全域性最小值的時候,接受的概率p=exp(-de / t),其中de = f(x_new) - f(x)。

使用全域性模擬退火演算法求解s4vm的偽**如下:

首先是隨機出t個超平面,即給出t個超平面對未標註樣本的**值,在localsearch中,根據**值,即可以使用傳統svm學習到每個超平面的引數,對於每個超平面,在固定引數下,調整每個未標註樣本的標籤,使得目標函式最終收斂,則一次localsearch完成,其他部分與模擬退火演算法一致。

2、使用取樣方式

隨機選擇出n個超平面,其中n > t

周志華的講座

周志華來南開 1 西瓜書大佬發了很多aaai 2 深度特徵與人工特徵 hog 深度學習特徵是否無敵 3 近期成果,深度隨機森林 aaai 根據熵判斷結果優劣,好的結果直接跳倒到下級 類似殘差,但是不全是 是為了讓好的結果保留與下一級比較,類似避免梯度消失的理念,也可以說好的結果在經過下一級森林的過程...

讀周志華老師《關於深度學習一點思考》一文筆記

能夠進行逐層處理 處理過程中有特徵內部的變化 演算法模型的 複雜度足夠高 機器學習裡面用到的所有模型,它必須具有 萬有逼近能力 隨機森林 bp演算法效能較好。基於樹模型的方法,主要是借用整合學習的很多想法。在很多不同的任務上,它的模型得到的結果和深度神經網路是高度相似的,除了一些大規模的影象等等。可...

周志華 孤立森林Isolation Forest

一 給定資料集x,是個二維陣列,row代表樣本數,col代表每個樣本的屬性維度 二 從這些資料集中隨機選取256個樣本。建立二叉樹,初始的高度預設為0 隨機選取某個屬性q 屬性集q 在該屬性q中從最大值和最小值之間選取屬性值p,將小於p的值劃分到左子樹,大於p的值劃分到右子樹。遞迴劃分左右子樹。遞迴...