支援向量機的發展
自從90年代初經典svm的提出,由於其完整的理論框架和在實際應用中取得的很多好的效果,在機器學習領域受到了廣泛的重視。其理論和應用在橫向和縱向上都有了發展。
理論上:1.模糊支援向量機,引入樣本對類別的隸屬度函式,這樣每個樣本對於類別的影響是不同的,這種理論的應用提高了svm的抗雜訊的能力,尤其適合在未能完全揭示輸入樣本特性的情況下。
2.最小二乘支援向量機。這種方法是在2023年提出,經過這幾年的發展,已經應用要很多相關的領域。研究的問題已經推廣到:對於大規模資料集的處理;處理資料的魯棒性;引數調節和選擇問題;訓練和**。
3.加權支援向量機(有偏樣本的加權,有偏風險加權)。
4.主動學習的支援向量機。主動學習在學習過程中可以根據學習程序,選擇最有利於分類器效能的樣本來進一步訓練分類器,特能有效地減少評價樣本的數量。也就是通過某種標準對樣本對分類的有效性進行排序,然後選擇有效樣本來訓練支援向量機。
5.粗糙集與支援向量機的結合。首先利用粗糙集理論對資料的屬性進行約簡,能在某種程度上減少支援向量機求解計算量。
6.基於決策樹的支援向量機。對於多類問題,採用二岔樹將要分類的樣本集構造出一系列的兩類問題,每個兩類構造乙個svm。
7.分級聚類的支援向量機。基於分級聚類和決策樹思想構建多類svm,使用分級聚類的方法,可以先把n-1個距離較近的類別結合起來,暫時看作一類,把剩下的一類作為單獨的一類,用svm分類,分類後的下一步不再考慮這單獨的一類,而只研究所合併的n-1類,再依次下去。
8.演算法上的提高。
lvapnik在95年提出了一種稱為」chunking」的塊演算法,即如果刪除矩陣中對應lagrange乘數為0的行和列,將不會影響最終結果。
losuna提出了一種分解演算法,應用於人臉識別領域。
ljoachims在2023年將osuna提出的分解策略推廣到解決大型svm學習的演算法
lplatt於2023年提出了序貫最小優化(sequential minimal optimization)每次的工作集中只有2個樣本。
9.核函式的構造和引數的選擇理論研究。基於各個不同的應用領域,可以構造不同的核函式,能夠或多或少的引入領域知識。現在核函式廣泛應用的型別有:多項式逼近、貝葉斯分類器、徑向基函式、多層感知器。引數的選擇現在利用交叉驗證的方法來確認。
10.支援向量機從兩類問題向多類問題的推廣:
nweston在2023年提出的多類演算法為代表。在經典svm理論的基礎上,直接在目標函式上進行改進,重新構造多值分類模型,建立k分類支援向量機。通過sv方法對新模型的目標函式進行優化,實現多值分類。這類演算法選擇的目標函式十分複雜,變數數目過多,計算複雜度也非常高,實現困難,所以只在小型問題的求解中才能使用。weston,multi-class support vector machines n
一對多(one-against-rest)----- vapnik提出的,k類---k個分類器,第m個分類器將第m類與其餘的類分開,也就是說將第m類重新標號為1,其他類標號為-1。完成這個過程需要計算k個二次規劃,根據標號將每個樣本分開,最後輸出的是兩類分類器輸出為最大的那一類。不足:容易產生屬於多類別的點(多個1)和沒有被分類的點(標號均為-1)--不對,訓練樣本資料大,訓練困難,推廣誤差無界. n
一對一(one-against-one)---kressel 對於任意兩個分類,構造乙個分類器,僅識別這兩個分類,完成這個過程需要k(k-1)/2個分類器,計算量是非常龐大的。對於每乙個樣本,根據每乙個分類器的分類結果,看屬於哪個類別的次數多,最終就屬於哪一類(組合這些兩類分類器並使用投票法,得票最多的類為樣本點所屬的類)。不足:如果單個兩類分類器不規範化,則整個n類分類器將趨向於過學習;推廣誤差無界;分類器的數目k隨類數急劇增加,導致在決策時速度很慢。 n
層(數分類方法),是對一對一方法的改進,將k個分類合併為兩個大類,每個大類裡面再分成兩個子類,如此下去,直到最基本的k個分類,這樣形成不同的層次,每個層次都用svm來進行分類------1對r-1法,構建k-1個分類器,不存在拒絕分類區。
應用上
主要研究熱點
從上面的發展中,我們可以總結出,目前支援向量機有著幾方面的研究熱點:核函式的構造和引數的選擇;支援向量機從兩類問題向多類問題的推廣;更多的應用領域的推廣;與目前其它機器學習方法的融合;與資料預處理(樣本的重要度,屬性的重要度,特徵選擇等)方面方法的結合,將資料中脫離領域知識的資訊,即資料本身的性質融入支援向量機的演算法中從而產生新的演算法;支援向量機訓練演算法的探索。
如何調研領域新熱點和發展方向
先看中文綜述再看英文綜述 如何檢索領域前沿 計算機 數學等理學 生物學 1 會議官方 個人主頁,google scholar和一些group的主頁 2 頂級會議 的related work和reference都是重要的資訊源,尤其是related work。好 的related work寫的相當的精...
資料探勘研究方向 熱點以及對大資料研究的認識
日期 2015 07 07 字型 大中小 通過上網查詢以及看同行對會議的公共認識,資料探勘領域的頂級會議是kdd acm sigkdd conference on knowledge discovery and data mining 公認的 排名前幾位的會議是kdd icde cikm icdm ...
LR和SVM的異同
在大大小小的面試過程中,多次被問及這個問題 請說一下邏輯回歸 lr 和支援向量機 svm 之間的相同點和不同點 第一次被問到這個問題的時候,含含糊糊地說了一些,大多不在點子上,後來被問得多了,慢慢也就理解得更清楚了,所以現在整理一下,希望對以後面試機器學習方向的同學有所幫助 至少可以瞎扯幾句,而不至...