聚類分析是根據在資料中發現的描述物件及其關係,將資料物件分組。
聚類分析目標是組內的物件互相之間是相似的,而不同組中的物件是不同的。
聚類與分類:聚類分析可以理解為非監督分類
層次的與劃分的:簇的集合是巢狀還是非巢狀
互斥的、重疊的與模糊的:模糊聚類中每乙個物件相對於每個簇都有乙個隸屬權值
完全的與部分的:是否將每乙個物件都必須歸為某一簇
明顯分離的
基於原型的:球形(k均值)
基於圖的
基於密度:簇就是物件的稠密區,被低密度的區域環繞(凝聚的層次聚類,dbscan)
共同性質的
k均值用質心定義原型,質心是一組值的均值
k中心點使用中心點定義原型,中心點是一組點中最具代表性的點
1.指派點到最近的質心
鄰近度來量化所考慮資料的最近概念
2.質心和目標函式
聚類目標通常用乙個目標函式表示,該函式依賴於點之間,或點到簇的質心的鄰近性
歐幾里得空間中的資料:
誤差平方和sse作為度量聚類質量的目標函式
文件資料
一般情況:
3.選擇初始質心
隨機選取初始質心——>>選取樣本
1.處理空簇:替補質心
2.離群點
3.用後處理降低sse:簇的**和合併
4.增量地更新質心
k均值適應於球形簇,無法處理非球形簇、不同尺寸和不同密度的簇。
自然簇;自然簇的子簇
最小化sse的目標函式:梯度下降法
1.作為最小化sse的演算法推導k均值
求偏導,令偏導=0:
正如前面指出,簇的最小化sse的最佳質心是簇中各點的均值
2.為sae(絕對誤差和)推導k均值
求偏導,令偏導=0:
六 關聯分析 基本概念和演算法1
啤酒尿布問題 二元表示 項集 事務和支援度計數 包含0個或多個項的集合被稱為項集,k 項集 真實存在的項集稱為事務 包含特定項集的事務個數稱為項集的支援度計數。關聯規則 蘊含表示式x y 關聯規則的強度 支援度和置信度,支援度可以用於給定資料集的頻繁程度,置信度確定y包含x的事務中出現的頻繁程度。關...
演算法分析基本概念
乙個演算法的要求有四個 有輸入 有輸出 有限性 確定性。有乙個很著名的公式是程式 資料結構 演算法。由該式子能看出演算法和程式的關係,演算法是一段有限序列能夠解決乙個問題,是解決問題的方法。程式是乙個實在的東西,能夠解決乙個問題。演算法和程式相比,演算法強調的是方法,所以演算法不拘泥於各種程式語言,...
聚類分析學習(一)聚類分析概念和相關演算法
一.聚類分析的概念 1.聚類分析的定義 聚類分析指將物理或抽象物件的集合分組為由類似的物件組成的多個類的分析過程。聚類是將資料分類到不同的類或者簇這樣的乙個過程,所以同乙個簇中的物件有很大的相似性,而不同簇間的物件有很大的相異性。2.聚類分析的目標 聚類分析的目標就是在相似的基礎上收集資料來分類。最...