學習筆記 聚類降維矩陣分解

2021-08-19 23:37:39 字數 821 閱讀 4648

lightgbm, pca, clustering, k-means

聚類,降維

lightgbm:

lightgbm(light gradient boosting machine)是微軟開發基於決策樹演算法的分布式梯度提公升框架.支援高效率並行運算,低記憶體消耗,高準確率分布式支援.

lightgbm優化:

基於histogram的決策樹演算法,僅需要儲存離散化後的數值,不需要原始特徵值無需排序,相對於xgboost的exact演算法,記憶體佔用量為xgboost的1/8.同時,對每個個正計算增益點的次數減少,次數為bin次.帶有深度限制的leaf-wise演算法(leaf-wise高精度,容易過擬合,level-wise低效,易進行多執行緒工作).lightgbm可以直接支援類別特徵

lightgbm使用:

imort lightgbm as lgb 或者from sklearn import lgb.sklearn.lgbmclassifier

第一步構造dataset:

第二步進行訓練:

第三部進行評價:

聚類和降維

聚類是用於尋找資料內在的分布結構。既可以作為乙個單獨的過程,如異常檢測等 也可作為分類等其他學習任務的前驅過程。聚類是標準的無監督學習。在一些推薦系統中需要確定新使用者的型別,但 使用者型別 這個概念可能無法精確定義,此時往往會先對原有的使用者資料進行聚類。然後根據聚類的結果將每個簇定義為乙個類。然...

聚類 降維與度量學習

聚類 簇內相似度高,簇間相似度低。下式為閔可夫斯基距離 di st x i,xj u 1n xiu xju p 1 p dis t xi xj u 1n xiu xju p 1p 當p 1 p 1 時為曼哈頓距離 當p 2 p 2時為歐氏距離。但這樣的計算方式只適合有序屬性 1與2 比 1與3 更進...

機器學習 分類 回歸 聚類 降維

一 分類 樸素貝葉斯 貝葉斯分類法是基於貝葉斯公式 先驗概率和後驗概率的關係 的統計學分類方法。它通過 乙個給定的元組屬於乙個特定類的概率,來進行分類。logistic回歸 logistic回歸得出 值後,根據 值大小進行分類。通常是二分類 決策樹基於樹的結構來進行決策 支援向量機svm suppo...