第一部分
引言
基於資料的機器學習是現代智慧型技術中的重要方面, 研究從觀測資料(樣本) 出發尋找規律, 利用這些規律對未來資料或無法觀測的資料進行**. 包括模式識別、神經網路等在內, 現有機器學習方法共同的重要理論基礎之一是統計學. 傳統統計學研究的是樣本數目趨於無窮大時的漸近理論, 現有學習方法也多是基於此假設. 但在實際問題中, 樣本數往往是有限的, 因此一些理論上很優秀的學習方法實際中表現卻可能不盡人意.與傳統統計學相比, 統計學習理論(statistical learning theory,slt) 是一種專門研究小樣本情況下機器學習規律的理論. vapnik 等人從
六、七十年代開始致力於此方面研究, 到九十年代中期, 隨著其理論的不斷發展和成熟, 也由於神經網路等學習方法在理論上缺乏實質性進展, 統計學習理論開始受到越來越廣泛的重視.統計學習理論是建立在一套較堅實的理論基礎之上的, 為解決有限樣本學習問題提供了乙個統一的框架. 它能將很多現有方法納入其中, 有望幫助解決許多原來難以解決的問題(比如神經網路結構選擇問題、區域性極小點問題等) ; 同時, 在這一理論基礎上發展了一種新的通用學習方法——支援向量機(support vector machine,svm ) , 它已初步表現出很多優於已有方法的效能. 一些學者認為, slt和svm 正在成為繼神經網路研究之後新的研究熱點, 並將有力地推動機器學習理論和技術的發展
我國早在八十年代末就有學者注意到統計學習理論的基礎成果, 但之後較少研究,目前只有少部分學者認識到這個重要的研究方向. 本文重點研究的多分類支援向量機至今還沒有突破性進展。
第二部分
資料探勘常用分類技術、演算法
1、分類資料探勘常用技術
分類作為資料探勘中一項非常重要的任務,目前在商業上應用最多。分類的目的是學會乙個分類函式或分類模型(也常常稱作分類器),該模型能把資料庫中的資料項對映到給定類別中的某乙個,從而可以用於**。目前,分類方法的研究成果較多,判別方法的好壞可以從三個方面進行:1)**準確度(對非樣本資料的判別準確度);2)計算複雜度(方法實現時對時間和空間的複雜度);3)模式的簡潔度(在同樣效果情況下,希望決策樹小或規則少)。
近年來,對資料探勘中分類演算法的研究是該領域中乙個熱點,對不同分類方法都有許多對比研究成果。沒有乙個分類方法在對所有資料集上進行分類學習均是最優的。目前在資料探勘軟體中運用的最早也是最多的分類演算法是神經網路,它具有對非線性資料快速建模的能力,通過對訓練集的反覆學習來調節自身的網路結構和連線權值,並對未知的資料進行分類和**。但是,神經網路從某種意義上說是一種啟發式的學習機,本身有很大經驗的成分,為了克服傳統神經網路方面不可避免的難題,
vapnik
提出了一種新的神經網路――支援向量機,並隨後提出了基於結構風險最小化思想的統計學習理論,正式奠定了
svm的理論基礎,鑑於
svm紮實的理論基礎
2、資料探勘分類演算法
(1)、判別分析
線性判別,knn,bayes判別,多元回歸分析,rocchio法,距離函式法,支援向量機,勢函式法
(2)、機器學習
id3決策樹,aq11演算法,rough sets
(3)、神經網路
(4)、支援向量機
第三部分
支援向量機
1、支援向量機概述
v. vapnik
提出的支援向量機理論因其堅實的理論基礎和諸多良好特性在近年獲得了廣泛的關注。已經有許多事實證明,作為支援向量機最基本思想之一的結構化風險最小化原則(
structural risk minimization, srm
)要優於傳統的經驗風險最小化原則(
empirical risk minimization, erm
)。不同於
erm試圖最小化訓練集上的誤差的做法,
srm試圖最小化
vc維的上界,從而使其學習機獲得了更好的推廣效能,這恰恰是統計學習理論最重要的目標之一。支援向量機的主要應用領域有模式識別、函式逼近和概率密度估計等等,本文的討論重點是使用支援向量機進行多分類的問題。
2
(1)svm的優勢:
由於支援向量機方法是建立在統計學習理論的
vc維理論和結構風險最小原理基礎上的,根據有限的樣本資訊在模型的複雜性
(即對特定訓練樣本的學習精度,
accuracy)
和學習能力
(即無錯誤地識別任意樣本的能力
)之間尋求最佳折衷,以期獲得最好的推廣能力
(generalizatin ability)
。支援向量機方法的幾個主要優點是
可以解決小樣本情況下的機器學習問題
可以提高泛化效能
可以解決高維問題
可以解決非線性問題
可以避免神經網路結構選擇和區域性極小點問題
(2)svm的研究熱點
目前,svm
演算法在很多領域都有應用。例如,在模式識別方面,對於手寫數字識別、語音識別、人臉影象識別、文章分類等問題,
svm演算法在精度上已經超過傳統的學習演算法或與之不相上下。
svm主要有如下幾個研究熱點:
模式識別
回歸估計
概率密度估計
(3)svm的主要核函式
多項式核: (gamma*u』*v + coef0)^degree
徑向基核(rbf): exp(-gamma*|u-v|^2)
sigmoid
核: tanh(gamma*u』*v + coef0)
(4)svm的應用
文字分類,人臉識別
三維物體識別,遙感影象分析
函式逼近,時間序列**
資料壓縮,優化svm演算法
svm改進方法(多分類擴充套件,用於多現實中的多分類問題)
svm硬體實現
(5)svm的難點
如何在非監督模式識別問題中應用統計學習理論(slt)
如何用理論或實驗的方法計算vc維
經驗風險和實際風險之間的關係稱之為推廣性的界,但是當(h/n)>0.37時(h—vc維,n—樣本數),推廣性的界是鬆弛的,如何尋找乙個更好地反映學習機器能力的引數和得到更緊的界
實現結構風險最小化(srm)時,如何選擇函式子集結構
(6)應用中的問題
用支援向量機進行資料探勘,除了上面討論的一些關鍵點之外,主要需要解決下面的一些問題:
(1)傳統支援向量機是做二元分類的,如何擴充套件為多類分類,比如**金融風險,如果風險級別為高和低兩類,用傳統svm可以很好地解決,但如果加乙個或者幾個風險級別,那麼就需要擴充套件成多分類支援向量機,這方面的研究做了很多,應用還很少
(2)海量資料的計算效能問題,這是很多資料探勘演算法都會面臨的問題,svm目前在這方面要做的研究還很多。
支援向量機(SVM)
簡介 術語 支援向量機 svm 是乙個類分類器,正式的定義是乙個能夠將不同類樣本在樣本空間分隔的超平面。換句話說,給定一些標記 label 好的訓練樣本 監督式學習 svm演算法輸出乙個最優化的分隔超平面。首先我們假定有乙個未知的欲分類的集合,可以進行分割,但是我們不知道分割的函式 超平面,也叫真實...
支援向量機SVM
支援向量機svm support vector machine 是機器學習領域的乙個有監督的學習模型。一 簡介 支援向量機建立在統計學習理論的基礎之上。統計學習理論 statistical learning theory簡稱slt 是一種處理小樣本的統計理論 為研究有限樣本情況下的統計模式識別和更廣...
SVM支援向量機
在機器學習領域,很多時候會用到分類的一些演算法,例如knn,貝葉斯。我們可以把分類的樣本簡單除暴的分為兩種型別。線性可分和非線性可分。可以使用乙個非常簡單的例子來解釋什麼是線性可分,什麼是線性不可分。a 線性可分的2類樣本 b 非線性可分的2類樣 已知乙個線性可分的資料集,其中x表示乙個n維向量,當...