lightgbm, pca, clustering, k-means
聚類,降維
lightgbm:
lightgbm(light gradient boosting machine)是微軟開發基於決策樹演算法的分布式梯度提公升框架.支援高效率並行運算,低記憶體消耗,高準確率分布式支援.
lightgbm優化:
基於histogram的決策樹演算法,僅需要儲存離散化後的數值,不需要原始特徵值無需排序,相對於xgboost的exact演算法,記憶體佔用量為xgboost的1/8.同時,對每個個正計算增益點的次數減少,次數為bin次.帶有深度限制的leaf-wise演算法(leaf-wise高精度,容易過擬合,level-wise低效,易進行多執行緒工作).lightgbm可以直接支援類別特徵
lightgbm使用:
imort lightgbm as lgb 或者from sklearn import lgb.sklearn.lgbmclassifier
第一步構造dataset:
第二步進行訓練:
第三部進行評價:
聚類和降維
聚類是用於尋找資料內在的分布結構。既可以作為乙個單獨的過程,如異常檢測等 也可作為分類等其他學習任務的前驅過程。聚類是標準的無監督學習。在一些推薦系統中需要確定新使用者的型別,但 使用者型別 這個概念可能無法精確定義,此時往往會先對原有的使用者資料進行聚類。然後根據聚類的結果將每個簇定義為乙個類。然...
聚類 降維與度量學習
聚類 簇內相似度高,簇間相似度低。下式為閔可夫斯基距離 di st x i,xj u 1n xiu xju p 1 p dis t xi xj u 1n xiu xju p 1p 當p 1 p 1 時為曼哈頓距離 當p 2 p 2時為歐氏距離。但這樣的計算方式只適合有序屬性 1與2 比 1與3 更進...
機器學習 分類 回歸 聚類 降維
一 分類 樸素貝葉斯 貝葉斯分類法是基於貝葉斯公式 先驗概率和後驗概率的關係 的統計學分類方法。它通過 乙個給定的元組屬於乙個特定類的概率,來進行分類。logistic回歸 logistic回歸得出 值後,根據 值大小進行分類。通常是二分類 決策樹基於樹的結構來進行決策 支援向量機svm suppo...