機器學習 分類 回歸 聚類 降維

2022-07-20 12:24:11 字數 1480 閱讀 3174

一、分類

樸素貝葉斯

貝葉斯分類法是基於貝葉斯公式(先驗概率和後驗概率的關係

)的統計學分類方法。

它通過**乙個給定的元組屬於乙個特定類的概率,來進行分類。

logistic回歸

logistic回歸得出**值後,根據**值大小進行分類。(通常是二分類)

決策樹基於樹的結構來進行決策

支援向量機svm  support vector machine

在訓練集的樣本空間尋找乙個劃分超平面,將不同類別的樣本分開。並且最大化分類邊界點距離分類平面的距離。

二、回歸

線性回歸

用直線進行擬合。

邏輯回歸

用logistic函式擬合。

三、聚類

(1)基於分層的聚類

agnes演算法 

先將每個樣本看成乙個初始聚類簇,然後在演算法執行的每一步中找出距離最近的兩個聚類簇進行合併,不斷重複,直到達到預設的聚類簇的個數。

(2)基於劃分的聚類

k-means演算法

首先隨機從資料中選k個點,每個點初始代表每個聚類的中心,然後計算剩餘各個樣本到聚類中心的距離,將它賦給最近的簇,接著重新計算沒一簇的平均值,整個過程不斷重複,如果相鄰兩次調整沒有明顯變化,說明資料聚類形成的簇收斂。

(3)基於密度的聚類

dbscan演算法

需要兩個引數:半徑(eps),以點p為中心的鄰域內最少點的數量(minpts)。若區域內點的數量大於minpts,就把這些點加入到區域中。

(4)基於網路的聚類

(5)基於模型的聚類

四、降維

主成分分析法(pca)  principal component analysis

通過某種線性投影,將高維的資料對映到低維的空間中表示,並期望在所投影的維度上資料的方差最大,以此使用較少的資料維度(主成分),同時保留住較多的原資料點的特性。

下圖中pca會選擇2軸。

分類使得:

1、同類的資料點盡可能的接近(within class)

2、不同類的資料點盡可能的分開(between class)

上圖中lda會選擇1軸。

區域性線性嵌入(lle)  locally linear embedding

非線性降維演算法,它能夠使降維後的資料較好地保持原有流形結構。

拉普拉斯特徵對映

機器學習 分類 回歸 聚類 降維的區別

由上圖我們可以看到,機器學習分為四大塊,分別是 classification 分類 regression 回歸 clustering 聚類 dimensionality reduction 降維 給定乙個 樣本特徵 x 我們希望 其對應的屬性值 y 如果y 是離散的,那麼這就是乙個分類問題,反之,如...

機器學習 分類,回歸,聚類 評價指標

機器學習 分類,回歸,聚類 評價指標 分類問題 roc 接收操作者特徵曲線 最早用於雷達訊號檢測領域,用於區分訊號與雜訊。現用來評價模型的 能力,roc曲線基於混淆矩陣得出的。兩個指標 真陽率 tpr 為縱座標與假陽率 fpr 為橫座標 tpr越高,同時fpr越低 即roc曲線越陡 模型效能越好 a...

聚類和降維

聚類是用於尋找資料內在的分布結構。既可以作為乙個單獨的過程,如異常檢測等 也可作為分類等其他學習任務的前驅過程。聚類是標準的無監督學習。在一些推薦系統中需要確定新使用者的型別,但 使用者型別 這個概念可能無法精確定義,此時往往會先對原有的使用者資料進行聚類。然後根據聚類的結果將每個簇定義為乙個類。然...