機器學習 樣本處理

2021-08-20 19:53:56 字數 714 閱讀 2253

樣本處理:

模型冷啟動:

構建專家規則模型(前期比機器學習模型重要)

平滑過渡:充分部分優先切換

產品->資料->產品的重要性

資料技術不是核心競爭力,但資料是。

樣本分佈不一致的解決方案:

不一致會有什麼問題?樣本資料和實際資料的分布不一致。

難點在於發現(意識到)

需要清楚產品需要什麼

樣本不平衡的解決方案:

樣本不平衡的問題:分布的比例偏差較大,把小樣本進行擴充

原理解析

兩種等價方案:小樣本擴充or代價敏感學習

變化業務的解決方案:

業務變化劇烈:不能只基於歷史資料

機器學習能應對黑天鵝麼?機器學習只能進行抽象,不能想象。

模型評估:

評估的關鍵:業務目標和模型目標一致

做業務模型的經驗積累:模型指標提公升x,則業績指標提公升y

想清楚做事的目標並不容易:

一切目標都不是那麼容易搞清楚

大企業的困境:渠道、產品、內容重要性不斷變化neinei內容分發平台:上游內容生產,下游硬體渠道。

1、滿足使用者需求

2、賺到錢

3、生態長長久久

模型指標的設計:二分類問題的誤差

最簡答的二分類的問題

如何評價模型**的效果。這兩種錯誤一樣麼?

關注某一類的錯誤,然後去改進這一類對應的指標。準確率和召回率

少數樣本處理

在檢測少數樣本時,如果我們採用正常的分類評價指標,則會發現,即使少數類全部分錯,也能達到乙個很高的正確率。所以我們在這種情況下需要另外的策略保證少數類得到足夠的重視 1.再抽樣 1.1 對多數類隨機欠取樣 缺點 資料集沒有完全被利用,而且有可能引入偏差 彌補 整合學習 easyensemble 併聯...

工作中樣本處理流程

工作中樣本處理流程 郵件的弄清楚目的,是出報告 清除 盡可能多的收集資訊 1.只有一台機器還是幾台或批量處理.2.目前的症狀.能查,但是清不乾淨.3.有樣本 在虛擬機器復現,和客戶對比,復現成功就在這邊操作,對比不一樣就需要遠端.先用引擎掃一遍,看能查否,不能查先入庫.1.file c docume...

非均衡樣本處理的心法

身處大資料時代,對模型和風控工作者來說無異於福音。但與此同時,資料呈現長尾分布,不均衡分布導致訓練困難,效果不佳。具體到風控場景中,負樣本的佔比要遠遠小於正樣本的佔比。考慮乙個簡單的例子,假設有10萬個樣本,其中逾期客戶500個,壞樣本佔比0.5 如果我們直接將資料輸入模型進行訓練,將導致即便全部判...