資料探勘 筆記 閱讀之機器學習競賽高階

2021-08-03 00:24:41 字數 610 閱讀 3647

教你如何在機器學習競賽中更勝一籌(上)-部落格-雲棲社群-阿里雲

介紹一些建立機器學習模型的技巧

了解資料

評估指標

確定交叉驗證策略

超參調整

選擇演算法

保持**結果

組合模型

估算缺失值:

- 均值,中位數插值

- 在變數的正常範圍之外標記。如-1, -9999

- 用一種可能性替換,例如與目標變數有關的事物

- 有時,空==0

- 嘗試用已知值子集來**缺失值

- 刪除空值行

將業務問題轉化為機器學習問題 -> 繼續轉化為可解決的問題

有一定比例重疊

kaggle之外

- 如何將業務問題轉化為建模問題

- 如何監控模型的部署

- 如何解釋困難的概念

演算法核心 or 使用

- 每天都有新東西出現,有時很難跟蹤

- 關注機器演算法的正確使用

機器學習演算法和深度學習能夠提高準確度,但很難解釋(黑盒)

資料科學家,應該努力確保有一種方法來測試模型對資料的**結果有多好,而不是了解為什麼能得到這樣的結果。

資料探勘 筆記 閱讀之資料探勘比賽基本流程

乾貨 kaggle 資料探勘比賽經驗分享 資料分析,資料清洗,特徵工程,模型訓練和驗證等四個大的模組 離散值 目標變數的分布 離散值 某個id上面不平衡 變數之間的分布和相關度,發現高相關和共線性的特徵 預處理 特徵缺失值的處理 連續值 偏正態分佈用均值代替,保持資料均值 長尾分布用中值代替,避免受...

資料探勘之Adaboost學習筆記

所謂 眾人拾柴火焰高 三個臭皮匠抵個諸葛亮 整合學習機的泛化能力一般明顯好於單一的學習器。那麼adaboost演算法就是基於這樣的思想產生的。boosting方法的代表adaboost是乙個以單層決策樹分類器為弱分類器基礎,將他們組合在一起,從而組成乙個高效能的可與svm相提並論的分類器。它的自適應...

讀《資料探勘 實用機器學習技術》筆記

資料探勘是通過分析存在於資料庫裡的資料來解決問題。在激烈的競爭市場上,客戶忠誠度搖擺問題就是乙個經常提到的事例,乙個有關客戶商品選擇以及客戶個人資料的資料庫是解決這個問題的關鍵。以前客戶的行為模式能夠被用來分析並識別哪些喜歡選購不同的商品。甄別出那些善變的客戶群體,並加以特殊對待,須知對整個客戶群都...