聚類篇 (一)聚類分析概述

2021-09-12 23:30:50 字數 2961 閱讀 7749

聚類分析是研究「物以類聚」問題的分析方法。「物以類聚」問題在社會經濟研究中十分常見。例如,收集到大型商廈的顧客自然特徵、消費行為等方面的資料,顧客群細分是最常見的分析需求。可從顧客自然特徵和消費行為的分組入手,如根據客戶的年齡、職業、收入、消費金額、消費頻率、購物偏好等進行單變數分組,或者進行多變數交叉分組。這種分組方式是客戶群細分中普遍採用的方式,但其客戶群劃分帶有明顯的主觀色彩,表現在如下方面:第一,需要明確指定分組變數。這無疑需要分析人員具備豐富的行業經驗,否則形成的顧客分組可能是不恰當的。同時,這種分組通常只能側重反映顧客的某個特徵或少數幾個特徵,很難反映多方面的綜合特徵,但基於多方面綜合特徵的客戶細分往往比單個特徵的細分更有意義。第二,需要明確指定分組標準。合理的標準是成功分組的關鍵,但仍需要行業經驗和反覆嘗試。

通常,人們更希望的分組是從資料出發的全面和客觀分組,即分組時兼顧考慮多方面因素,且無需人工指定分組標準,並確保各方面特徵相似的顧客能被分在同一組中,特徵不相似的顧客被分在不同組中。這是一種全方位的自動化分組,它相對更全面和更客觀,對幫助企業認識自己的客戶更有幫助。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出乙個分類的標準,聚類分析能夠從樣本資料出發,自動進行分類。在沒有先驗知識的前提下,根據資料的諸多特徵,按照其在性質上的親疏程度進行自動分組,且使組內個體的結構特徵具有較大的相似性,組間個體的特徵相似性較小。這裡所謂的「沒有先驗知識」是指沒有事先指定分組標準,所謂「親疏程度」是指樣本在變數取值上的總體相似程度或差異程度。聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對於同一組資料進行聚類分析,所得到的聚類數未必一致。聚類的目標是同一類物件的相似度盡可能大,不同類物件之間的相似度盡可能的小。

1. 聚類分析應用

在研究與處理事物時,經常需要將事物進行分類,聚類分析適用於很多不同型別的資料集合和研究領域,如工程、生物、醫藥、語言、人類學、經濟社會、心理學、電子商務和市場學等。

領域聚類分析的應用

工程根據物探、化探的指標將樣本進行分類

生物古生物研究中根據挖掘出的骨骼形狀和尺寸將它們分類;對動植物、基因進行分類,獲取對種群固有結構的認識

經濟社會

選取適當指標,對企業經濟效益分類;對各地區的經濟、政治、教育情況進行分類以及產業發展情況分類

商業發現不同的客戶群,通過購買模式刻畫客戶群的特徵,研究消費者行為;進行市場細分,尋找新的潛在市場、及實驗的市場

網際網路用來在網上進行文件歸類,以及**的訪問型別、時段等分類

保險對汽車保險單持有者分類

房產根據住宅型別、價值、位置對城市房產分類

電子商務

通過聚類得出具有相似瀏覽行為的客戶,並分析客戶的共同特徵,有助於更加了解自己的客戶,向客戶提供更合適的服務

2. 常用的聚類分析演算法

目前聚類演算法有很多,可從不同角度對它們進行分類。

3. 聚類分析時常見的基本問題

(1)歐氏距離(euclidean distance)

兩個樣本之間的歐氏距離是樣本各個變數值之差的平方和的平方根,計算公式為

其中樣本x=(

x1,x

2,..

.,xn

),y=

(y1,

y2,.

..,y

n)x=(x_1,x_2,...,x_n),y=(y_1,y_2,...,y_n)

x=(x1​

,x2​

,...

,xn​

),y=

(y1​

,y2​

,...

,yn​

) 。使用前一般需要將資料標準化,距離越大,差異度越大。

(2)歐氏距離平方(squared euclidean distance)

兩個樣本之間的歐氏距離平方是各樣本每個變數值之差的平方和,計算公式為

(3)切比雪夫距離(chebychev distance )

兩個樣本之間的切比雪夫距離是各樣本所有變數值之差絕對值中的最大值,計算公式為

(4)絕對值距離( block distance )

兩個樣本之間的絕對值距離是各樣本所有變數值之差絕對值的總和,計算公式為

(5)明科夫斯基距離(minkowski distance )

兩個樣本之間的minkowski距離是各樣本所有變數值之差絕對值的p次方的總和,再求p次方根。計算公式為

(6)余弦相似度

余弦相似度用向量空間中兩個向量夾角的余弦值作為衡量兩個樣本間差異的大小。余弦值越接近1,就表明夾角越接近0度,也就是兩個向量越相似,這就叫"余弦相似性"。

通過上述介紹,相信對聚類分析已經有了初步了解,即什麼是聚類分析、在什麼場景會用到聚類分析、有哪些常用的聚類分析演算法,以及樣本相似度計算。接下來可能比較關心聚類演算法是如何將一堆看似沒有規律的資料點聚成幾個簇的,後面會陸續介紹幾種常用的聚類方法:k-means聚類、k-medoids聚類、層次聚類、有序樣本聚類…

聚類分析學習(一)聚類分析概念和相關演算法

一.聚類分析的概念 1.聚類分析的定義 聚類分析指將物理或抽象物件的集合分組為由類似的物件組成的多個類的分析過程。聚類是將資料分類到不同的類或者簇這樣的乙個過程,所以同乙個簇中的物件有很大的相似性,而不同簇間的物件有很大的相異性。2.聚類分析的目標 聚類分析的目標就是在相似的基礎上收集資料來分類。最...

SAS 聚類分析 K 均值聚類

k 均值方法,有時也叫勞埃德方法或 lioyd forgy 方法。k 均值聚類的核心思想是 為指定劃分數目的最佳劃分。對於 n 個觀測,每個觀測是 m 維的實數向量,現在需要找到 k 個聚類 其中 k n,即 n 個子集 使得每個類別分組內的方差最小化。1.隨機選取 k 個真實 或虛擬的資料點作為初...

python層次聚類選擇類別 聚類分析 系統聚類

聚類就是按照某個特定標準把乙個資料集分割成不同的類或簇,最後的結果是希望同類之間的差異性盡可能小,不同類之間的差異性盡可能大。不同的類具有能夠表達異於其他類的指標,這樣針對不同的類,後續就能採取不一樣的處理手段。聚類的應用場景的比較多,比如建立客戶畫像 商品聚類 離群值檢驗等等 與分類演算法不一樣,...