聚類是用於尋找資料內在的分布結構。既可以作為乙個單獨的過程,如異常檢測等;也可作為分類等其他學習任務的前驅過程。聚類是標準的無監督學習。
在一些推薦系統中需要確定新使用者的型別,但「使用者型別」這個概念可能無法精確定義,此時往往會先對原有的使用者資料進行聚類。然後根據聚類的結果將每個簇定義為乙個類。然後在基於這些類別取進行相應的分類訓練,以判斷新使用者的型別。
降維主要是為了緩解維數災難的乙個重要方法。
主要是通過數學變換將原始的高維屬性轉變到乙個低維的子空間。雖然人們平時觀測到的資料基本都是高維的,但實際上真正與學習任務的分布相關的往往是低緯度的分布。所以,一般可以通過最主要的幾個特徵維度就可以實現對資料的描述。如kaggle上的鐵達尼號生還問題。其主要是通過給定乙個人的許多描述特徵如年齡、姓名、性別和票價等來判斷其是否能在海灘中生還。這就需要先進行特徵篩選,從而找出主要的特徵,讓學校到的模型有更好地泛化性。
(1) 聚類和降維都可以作為分類等問題的預處理步驟。
(2) 但他們雖然都可以實現對資料的約減,但二者使用情況不同。聚類針對的是資料點,而降維針對的是資料的特徵。
聚類常見的有k-means,層次聚類,基於密度的聚類等;降維中常見的有pca、isomap、lle等。
本文摘自「深度學習500問」。
聚類 降維與度量學習
聚類 簇內相似度高,簇間相似度低。下式為閔可夫斯基距離 di st x i,xj u 1n xiu xju p 1 p dis t xi xj u 1n xiu xju p 1p 當p 1 p 1 時為曼哈頓距離 當p 2 p 2時為歐氏距離。但這樣的計算方式只適合有序屬性 1與2 比 1與3 更進...
6 聚類(K means) 降維(Pca)
一種典型的無監督學習演算法,主要用於將相似的樣本自動歸到乙個類別中。在聚類演算法中根據樣本之間的相似性,將樣本劃分到不同的類別中,對於不同的相似度計算方法,會得到不同的聚類結果,常用的相似度計算方法有歐式距離法。k means k 初始中心點個數 計畫聚類數 means 求中心點到其他資料點距離的平...
學習筆記 聚類降維矩陣分解
lightgbm,pca,clustering,k means 聚類,降維 lightgbm lightgbm light gradient boosting machine 是微軟開發基於決策樹演算法的分布式梯度提公升框架 支援高效率並行運算,低記憶體消耗,高準確率分布式支援 lightgbm優化...