ML 教你聚類並構建學習模型處理資料(附資料集)

2021-08-18 10:51:05 字數 1445 閱讀 5852

本文將根據41個描述性分類特徵的維度,運用無監督主成分分析(pca)和層次聚類方法對觀測進行分組。將資料聚類可以更好地用簡單的多元線性模型描述資料或者識別更適合其他模型的異常組。此方法被編寫在python類中,以便將來能實現類似網格搜尋的引數優化。

結果與討論

本專案中,我們將機器學習技術應用於ames住房資料集,用79個解釋變數來**房屋的銷售**,其中包括41個分類變數(分型別變數),38個連續數值變數(連續型變數)。在最初探索性資料分析(eda)和特徵選擇的過程中,為了更好地理解資料,我們僅用兩個連續變數來擬合資料,以便通過三維散點圖反映資料和模型。通過列舉38個連續數值變數的所有雙變數排列組合並分別擬合線性回歸模型,我們選出了兩個對銷售****能力最強的變數。在考慮整個訓練集時,地上居住面積和整體質量引數是最佳的**指標,但這只解釋了房屋銷售價73.9%的方差。通過使用41個分類特徵來識別資料集內的組群,我們可以將資料集分解為方差更小的子集,並找到更好地描述每個特定房屋子集的模型。

附ames housing資料集:

乙個簡單的線性回歸模型可以體現地上居住面積和整體質量對住宅銷售**的影響,它解釋了74%的房價變動

由於分類變數較多,並且對ames房屋市場的專業知識有限,我們使用無監督的聚類方法找到變數裡的模式並在此基礎上分組。首先通過pca對資料集進行降維,以避免大量分類變數造成的「維度災難」效應。pca還有其他的好處,它能把對總體方差沒有貢獻的變數數量降到最低,並且將維度降低到三維以便我們直觀地改進聚類演算法的圖形表示(並且將維度降低至三維,給了我們乙個圖形化的分類效果展示,以便做出直觀地改進)。下圖展示了由pca將分類變數降到3維的圖形:

我有幾張阿里雲幸運券分享給你,用券購買或者公升級阿里雲相應產品會有特惠驚喜哦!把想要買的產品的幸運券都領走吧!快下手,馬上就要搶光了。

由41個分類變數濃縮後的三維pca空間資料表示

通過對此圖的初步觀察,資料大部分的差異體現在新的y(垂直)維度。在x(寬度)和z(深度)維度中,差異**於設定的類別,進而導致資料形成垂直方向的條紋。由於群集的各向異性,我們利用有k-nearest neighbor connector引數的層次聚類演算法來定義組,這樣就不會將條帶分割成多個部分。(我們利用層次聚類演算法中的k鄰近演算法,在不把豎狀條紋割開的基礎上重新定義各個組。)(在python的sklearn庫中,agglomerativeclustering方法可以用於聚類。本案例中,基於ward linkage標準把類的數量設定為6,以及由kneighbors_graph包生成連線陣列,其中引數n_neighbors設定為20)。

ML 教你聚類並構建學習模型處理資料(附資料集)

本文將根據41個描述性分類特徵的維度,運用無監督主成分分析 pca 和層次聚類方法對觀測進行分組。將資料聚類可以更好地用簡單的多元線性模型描述資料或者識別更適合其他模型的異常組。此方法被編寫在python類中,以便將來能實現類似網格搜尋的引數優化。結果與討論 本專案中,我們將機器學習技術應用於ame...

ML演算法 無監督學習 K means聚類

這一系列文章將介紹各種機器學習演算法,部分演算法涉及公示推導,我的部落格中有另乙個板塊介紹基於python和r實現各種機器學習演算法,詳情見置頂的目錄。聚類演算法是一種無監督的機器學習演算法,通過距離測度實現樣本點的歸類,演算法的最終目的是使得聚簇內部樣本點相似度最大,聚簇間樣本點相似度最小,常見的...

聚類模型ari 機器學習 聚類分析的模型評估

一 聚類演算法中的距離 1.單個樣本之間的距離 余弦距離 在聚類分析中,一般需要對資料進行標準化,因為聚類資料會受資料量綱的影響。在sklearn庫中,可呼叫如下方法進行標準化 1 from sklearn.preprocessing importstandardscaler2 data stand...