樣本處理:
模型冷啟動:
構建專家規則模型(前期比機器學習模型重要)
平滑過渡:充分部分優先切換
產品->資料->產品的重要性
資料技術不是核心競爭力,但資料是。
樣本分佈不一致的解決方案:
不一致會有什麼問題?樣本資料和實際資料的分布不一致。
難點在於發現(意識到)
需要清楚產品需要什麼
樣本不平衡的解決方案:
樣本不平衡的問題:分布的比例偏差較大,把小樣本進行擴充
原理解析
兩種等價方案:小樣本擴充or代價敏感學習
變化業務的解決方案:
業務變化劇烈:不能只基於歷史資料
機器學習能應對黑天鵝麼?機器學習只能進行抽象,不能想象。
模型評估:
評估的關鍵:業務目標和模型目標一致
做業務模型的經驗積累:模型指標提公升x,則業績指標提公升y
想清楚做事的目標並不容易:
一切目標都不是那麼容易搞清楚
大企業的困境:渠道、產品、內容重要性不斷變化neinei內容分發平台:上游內容生產,下游硬體渠道。
1、滿足使用者需求
2、賺到錢
3、生態長長久久
模型指標的設計:二分類問題的誤差
最簡答的二分類的問題
如何評價模型**的效果。這兩種錯誤一樣麼?
關注某一類的錯誤,然後去改進這一類對應的指標。準確率和召回率
少數樣本處理
在檢測少數樣本時,如果我們採用正常的分類評價指標,則會發現,即使少數類全部分錯,也能達到乙個很高的正確率。所以我們在這種情況下需要另外的策略保證少數類得到足夠的重視 1.再抽樣 1.1 對多數類隨機欠取樣 缺點 資料集沒有完全被利用,而且有可能引入偏差 彌補 整合學習 easyensemble 併聯...
工作中樣本處理流程
工作中樣本處理流程 郵件的弄清楚目的,是出報告 清除 盡可能多的收集資訊 1.只有一台機器還是幾台或批量處理.2.目前的症狀.能查,但是清不乾淨.3.有樣本 在虛擬機器復現,和客戶對比,復現成功就在這邊操作,對比不一樣就需要遠端.先用引擎掃一遍,看能查否,不能查先入庫.1.file c docume...
非均衡樣本處理的心法
身處大資料時代,對模型和風控工作者來說無異於福音。但與此同時,資料呈現長尾分布,不均衡分布導致訓練困難,效果不佳。具體到風控場景中,負樣本的佔比要遠遠小於正樣本的佔比。考慮乙個簡單的例子,假設有10萬個樣本,其中逾期客戶500個,壞樣本佔比0.5 如果我們直接將資料輸入模型進行訓練,將導致即便全部判...