一.聚類分析的概念
1.聚類分析的定義
聚類分析指將物理或抽象物件的集合分組為由類似的物件組成的多個類的分析過程。
聚類是將資料分類到不同的類或者簇這樣的乙個過程,所以同乙個簇中的物件有很大的相似性,而不同簇間的物件有很大的相異性。
2.聚類分析的目標
聚類分析的目標就是在相似的基礎上收集資料來分類。(最終形成了不同的類或者簇)
簡單來講,聚類的目的在於把相似的東西聚在一起。
3.聚類技術方法的應用簡介
聚類技術方法被用作描述資料,衡量不同資料來源間的相似性,以及把資料來源分類到不同的簇中。
4.聚類和分類的區別
聚類與分類的區別在於,聚類所要求劃分的類是未知的。
5.關於無監督學習的概念
(1)無監督學習是機器學習中的概念之一。無監督學習是指對無標籤資料的一類學習演算法。因為沒有標籤資訊,意味著需要從資料集中發現和總結模式或者結構。
(2)如何去發現和總結資料集的模式或者結構?基於資料中的變數之間關係發現資料集模式和結構正是通過聚類分析實現的。
6.關於模糊聚類分析和聚類分析的關係
(1)模糊聚類分析是聚類分析的一種。聚類分析按照不同的分類標準可以進行不同的分類。就好像人按照性別可以分成男人和女人,按照年齡可以分為老中青一樣。聚類分析如果按照隸屬度的取值範圍可以分為兩類,一類叫硬聚類演算法,另一類就是模糊聚類演算法。隸屬度的概念是從模糊集理論裡引申出來的。傳統硬聚類演算法隸屬度只有兩個值 0 和 1。
(2)模糊聚類分析和聚類分析實際上是資料處理的差別,模糊聚類是把輸入的樣本程式設計0~1之間的數,然後再進行運算,而聚類分析是把輸入的樣本變成0或者1,只是這兩個數,然後計算。
二.聚類相關演算法
聚類演算法一般有五種方法,最主要的是劃分方法和層次方法兩種。
1.劃分聚類演算法通過優化評價函式把資料集分割為k個部分,它需要k作為 輸人引數。
典型的分割聚類演算法有k-means演算法, k-medoids演算法、clarans演算法。
2.層次聚類由不同層次的分割聚類組成,層次之間的分割具有巢狀的關係。它不需要輸入引數,這是它優於分割聚類 演算法的乙個明顯的優點,其缺點是終止條件必須具體指定。
典型的分層聚類演算法有birch演算法、dbscan演算法和cure演算法等。
1.2.
聚類分析(一) 什麼是聚類分析
將一群物理物件或者抽象物件的劃分成相似的物件類的過程。其中類簇是資料物件的集合,在類簇中所有的物件都彼此相似,而類簇與類簇之間的物件是彼此相異。聚類除了可以用於資料分割 data segmentation 也可以用於離群點檢測 outlier detection 所謂的離群點指的是與 普通 點相對應...
聚類分析(一) 什麼是聚類分析
將一群物理物件或者抽象物件的劃分成相似的物件類的過程。其中類簇是資料物件的集合,在類簇中所有的物件都彼此相似,而類簇與類簇之間的物件是彼此相異。聚類除了可以用於資料分割 data segmentation 也可以用於離群點檢測 outlier detection 所謂的離群點指的是與 普通 點相對應...
聚類篇 (一)聚類分析概述
聚類分析是研究 物以類聚 問題的分析方法。物以類聚 問題在社會經濟研究中十分常見。例如,收集到大型商廈的顧客自然特徵 消費行為等方面的資料,顧客群細分是最常見的分析需求。可從顧客自然特徵和消費行為的分組入手,如根據客戶的年齡 職業 收入 消費金額 消費頻率 購物偏好等進行單變數分組,或者進行多變數交...