人工智慧 聚類 筆記

2021-10-03 21:45:51 字數 2432 閱讀 4721

聚類涉及到資料點的分組,給定一組資料點,我們可以根據聚類演算法將每個資料點劃分為乙個特定的組。同一組中的資料點應該具有相似的屬性或特徵,不同組中的資料點應該具有高度不同的屬性或特徵。聚類是一種無監督機器學習的方法(沒有標籤),或許多領域中常用的統計資料分析技術有時候作為監督學習中稀疏特徵的預處理,有時候可以作為異常值檢測

應用場景:新聞聚類使用者購買模型(交叉銷售)影象與基因技術等。聚類的難點有評估和調參等(無標籤)。

k-means是無監督機器學習,就在在沒有任何監督訊號的情況下,將資料分為k份的一種方法

要得到簇的個數,需要指定k值(簇的個數);

質心:均值,即向量各維取平均即可

距離的度量:常用歐式距離和余弦距離(對資料先標準化)

優化目標:

工作流程

(1)指定k的值,隨機初始化兩個質心(b)

(2)遍歷所有樣本點(a),分別計算樣本點到兩個質心的距離並進行聚類(c)

(3)根據聚類的結果更新質心的位置(d)

(4)重新遍歷樣本點計算到質心的距離並進行聚類(e)

(5)不斷更新並聚類直到質心的位置不再發生明顯的變化為止(f)

優勢:簡單快速適合常規資料集

劣勢:1. k值難確定,複雜度與樣本程線性關係,很難發現任意形狀的簇

2. k-means是區域性最優的,容易受到初十質心的影響

解決辦法:二分k-means演算法,對初始質心的選擇不太敏感,因為初始時只選擇乙個質心

k-means的細節問題

k值怎麼定,我們怎麼知道應該分幾類

沒有確定的做法,分幾類主要取決於個人的經驗和感覺,通常的做法是多嘗試幾個k值,看分成幾類的結果更好解釋,更符合分析目的等或者可以把各種k值算出的sse作比較,取最小的sse的k值

初始的k個質心怎麼選

通常就是隨機選,初始質心的選取對最終聚類結果有影響,因此演算法一定要多執行幾次,那個結果更reasonable就用那個結果。

當然也有一些優化的方法:

第一種是選擇彼此距離最遠的點,具體來說就是先選第乙個點,然後選離第乙個點最遠的當第二個點,然後選第三個點,第三個點到第

一、第二兩點的距離之和最小,以此類推

第二種是先根據其他聚類演算法(如層次聚類)得到聚類結果,從結果中每個分類選取乙個點k-means會不會陷入一直選質心的過程,永遠停不下來

不會,有數學證明k-means一定會收斂,大致思路是根據sse(誤差平方和)的概念,即每個點到自身所歸屬質心的距離的平方和,這個平方和是乙個函式,然後可以證明這個函式式最終收斂的函式。

判斷每個點歸屬那個質心距離怎麼算

第一種:歐幾里德距離:後續補

充\frac

補充後續

第二種:余弦相似度:余弦相似度用向量空間中兩個向量夾角的余弦值作為衡量兩個個體差異的大小,相比距離度量,余弦相似度更加注重兩個向量在方向上的差異,而非距離或長度上。

還有其他一些計算距離的方法,但都是歐氏距離和余弦相似度的衍生,明可夫斯基距離、切比雪夫距離、曼哈頓距離、馬哈拉諾比斯距離、調整後的余弦相似度、jaccard相似係數…

大家的單位要一致

每一輪迭代如何選取新的質心

各個維度的算術平均,比如(x1,y1,z1)、(x2,y2,z2)、(x3,y3,z3),那新的質心就是[(x1+x2+x3)/3,(y1+y2+y3)/3,(z1+z2+z3)/3],*這裡要注意,新質心不一定是實際的乙個資料點關於離群值

離群值就是遠離整體的、非常異常、非常特殊的資料點,在聚類之前應該將這些"極大"、"極小"之類的離群資料都去掉,否則會對於聚類的結果有影響。但是離群值往往自身就很有分析的價值、可以把離群值單獨作為一類來分析。

用spss做出的k-means聚類結果,包含anova(單因素方差分析),是什麼意思?

簡單說就是判斷用於聚類的變數是否對於聚類結果有貢獻,方差分析檢驗結果越顯著的變數,說明對聚類結果越有影響。對於不顯著的變數,可以考慮從模型中剔除

C 人工智慧 聚類演算法

c.聚類演算法 概要 距離 包括曼哈頓距離 尤拉距離等等 核函式 核函式的功能就是把資料從低維空間投影 project 到高維空間去 dtw層次化聚類演算法 該主要有兩種路徑 agglomerative和divisive,也可以理解為自下而上法 bottom up 和自上而下法 top down 自...

人工智慧筆記(一)

假設有輸入資料x x 1,x2 xn 輸出資料y,通過線性方程來擬合輸入資料x和輸出資料y之間的關係。線性方程為 h x w 0 w1 x1 w 2x2.w nxn 現在我們有m組輸入資料x和對應的實際輸出資料y,這時候矩陣表示 y 1y2y 3.ym 11.1x 11x2 1xm1 x12.x1 ...

人工智慧學習筆記

人工智慧並非專家系統,但是卻或多或少的與專家系統有關係,可以說專家系統是人工智慧很早期的存在形式。專家系統 es,expert system 是一種模擬人類專家解決領域問題的電腦程式系統。專家系統具有如下的一些特點 1 知識的匯聚 2 啟發性推理 3 推理和解釋的透明性 4 知識的更新 典型的專家系...