機器學習(聚類 一 )

2021-08-03 09:48:23 字數 1452 閱讀 9655

演算法起源於分類學,物以類聚,人以群分。人們在以前都是靠經驗來分類,但是當東西一多,就很難再進行靠經驗和知識進行分類而且分類的不准,所以利用數學進行定量的分類。

資料探勘,我們可以通過聚類來分別出不同的人群,概括出每一類消費者的消費模式。

1、劃分法:

k-means演算法

、k-medoids演算法、clarans演算法

2、層次法:

凝聚型層次聚類演算法[8]、基於模型方法中的神經網路[9]聚類演算法

3、密度演算法:

dbscan演算法、optics演算法、denclue演算法

我們要了解的基本的的聚類方法有k-means演算法、期望最大化演算法(expectation maximization,em)、譜聚類演算法以及人工神經網路演算法。

#裝載1、首先,隨機地 選擇k個物件,每個物件初始地代表了乙個簇的平均值或中心;對剩餘的每個物件,根據其與各簇中心的距離,將它賦給最近的簇;然後重新計算每個簇的平均值。 這個過程不斷重複,直到準則函式收斂。

2、mean有平均數的意思,k-means演算法根據其文字上的意思就是把一組資料平均的分成k分,但更嚴謹的講並不是這樣:k-均值(k-means)聚類演算法之所以稱之為k-均值是因為它可以發現k個不同的簇,且每個簇的中心採用簇中所含子資料集樣本特徵的均值計算而成。

3、k-均值聚類演算法需要數值型資料來進行相似性度量,也可以將標稱型資料對映為二值型資料再用於度量相似性,其優點是容易實現,缺點是可能收斂到區域性最小值,在大規模資料集上收斂較慢。

4、輸入n個物件(我們實際中的物件可不只是int這樣1,2,3這樣的資料,所以我們說是乙個乙個的物件)、要分類的簇的數目k。

輸出k個簇---->這些簇的要求是:使他們平方的誤差最小(sse)

5、步驟:

(1) 任意選擇k個物件作為初始的簇中心;

(2) repeat;

(3) 根據簇中物件的平均值,將每個物件(重新)賦予最類似的簇;

(4) 更新簇的平均值,即計算每個簇中物件的平均值;

(5) until不再發生變化。

6、演算法過程:

1、特徵值處理:

k-均值聚類演算法需要數值型資料來進行相似性度量,也可以將標稱型資料對映為二值型資料再用於度量相似性。

另外,樣本會有多個特徵,每乙個特徵都有自己的定義域和取值範圍,他們對distance計算的影響也就不一樣,如取值較大的影響力會蓋過取值較小的引數。為了公平,樣本特徵取值必須做一些scale處理,最簡單的方式就是所有特徵的數值都採取歸一化處置,把每一維的資料都轉化到0,1區間內,從而減少迭代次數,提高演算法的收斂速度。

2、k值的選定

當k的數目低於真實的簇的數目時,sse(或者平均直徑等其他分散度指標)會快速上公升。所以可以採用多次聚類,然後比較的方式確定最佳k值。多次聚類,一般是採用 k=1, 2, 4, 8... 這種二分數列的方式,通過交叉驗證找到乙個k在 v/2, v 時獲取較好聚類效果的v值,然後繼續使用二分法,在 [v/2, v] 之間找到最佳的k值。 

機器學習 聚類

聚類的過程是將樣本分類的過程,聚類屬於無監督學習,資料中沒有label,訓練之前並不知道樣本屬於哪乙個類別,需要借鑑經驗值。kmeans聚類 模型假設 資料的分布是k個 sigma 相同的高斯分布的,每個分布裡有 n 1,n 2,n k 個樣本,其均值分別是 mu 1,mu 2,mu k 那麼每個樣...

機器學習聚類

模型調參 from sklearn.cluster import dbscan 構建空列表,用於儲存不同引數組合下的結果 res 迭代不同的eps值 for eps in np.arange 0.001,1 0.05 迭代不同的min samples值 for min samples in rang...

機器學習入門 聚類(一)

聚類演算法是在沒有給定標籤和樣本值的前提下進行資料劃分,是典型的無監督學習 unsupervised learning 演算法。聚類試圖將資料集中的樣本劃分成若干個不相交的子集,稱為 簇 或 類 乙個好的樣本劃分肯定是簇內的樣本相似度高,而簇與簇之間的樣本相似度低。簇是物件的集合,其中每個物件到定義...