由上圖我們可以看到,機器學習分為四大塊,分別是
classification (分類),
regression (回歸),
clustering (聚類),
dimensionality reduction (降維)。
給定乙個
樣本特徵
x
, 我們希望**其對應的屬性值
y
, 如果y
是離散的, 那麼這就是乙個分類問題,反之,如果y
是連續的實數, 這就是乙個回歸問題
。
如果
給定一組樣本特徵
s=
, 我們沒有對應的屬性值
y
, 而是想發掘
這組樣本在d
維空間的分布, 比如分析哪些樣本靠的更近,哪些樣本之間離得很遠, 這就是屬於聚類問題。
如果我們想用維數更低的子空間來表示原來高維的特徵空間, 那麼這就是
降維問題。
無論是分類還是回歸,都是想建立乙個**模型
h ,給定乙個輸入
x , 可以得到乙個輸出
y : y
=h(x
) 不同的只是在分類問題中,
y 是離散的; 而在回歸問題中
y 是連續的。所以總得來說,兩種問題的學習演算法都很類似。所以在這個圖譜上,我們看到在分類問題中用到的學習演算法,在回歸問題中也能使用。分類問題最常用的學習演算法包括 svm (支援向量機) , sgd (隨機梯度下降演算法), bayes (貝葉斯估計), ensemble, knn 等。而回歸問題也能使用 svr, sgd, ensemble 等算法,以及其它線性回歸演算法。
聚類也是分析樣本的屬性, 有點類似classification, 不同的就是classification 在**之前是知道
y 的範圍, 或者說知道到底有幾個類別, 而聚類是不知道屬性的範圍的。所以 classification 也常常被稱為supervised learning, 而clustering就被稱為unsupervised learning。
clustering 事先不知道樣本的屬性範圍,只能憑藉樣本在特徵空間的分布來分析樣本的屬性。這種問題一般更複雜。而常用的演算法包括 k-means (k-均值), gmm (高斯混合模型) 等。
降維是機器學習另乙個重要的領域, 降維有很多重要的應用,特徵的維數過高, 會增加訓練的負擔與儲存空間, 降維就是希望去除特徵的冗餘, 用更加少的維數來表示特徵.降維演算法最基礎的就是pca了, 後面的很多演算法都是以pca為基礎演化而來。
機器學習 分類 回歸 聚類 降維
一 分類 樸素貝葉斯 貝葉斯分類法是基於貝葉斯公式 先驗概率和後驗概率的關係 的統計學分類方法。它通過 乙個給定的元組屬於乙個特定類的概率,來進行分類。logistic回歸 logistic回歸得出 值後,根據 值大小進行分類。通常是二分類 決策樹基於樹的結構來進行決策 支援向量機svm suppo...
機器學習 分類,回歸,聚類 評價指標
機器學習 分類,回歸,聚類 評價指標 分類問題 roc 接收操作者特徵曲線 最早用於雷達訊號檢測領域,用於區分訊號與雜訊。現用來評價模型的 能力,roc曲線基於混淆矩陣得出的。兩個指標 真陽率 tpr 為縱座標與假陽率 fpr 為橫座標 tpr越高,同時fpr越低 即roc曲線越陡 模型效能越好 a...
機器學習的降維和聚類
oleg 人工智慧 第五期 pca 將原始的d維資料投影到低維空間,並盡可能的保留更多的重要資訊。主要是通過計算原始資料集的協方差矩陣,並求得協方差最大時的特徵值,及其所對應的特徵向量,這些特徵向量就是更重要的特徵向量。pca的演算法原理 x為n d的資料集,n表示樣本數目,d表示樣本的特徵維度,x...