一、風險模型
1)在抽取樣本的時候,最少需要有兩期表現才可以,逾期超過15的label=1,逾期小於5天的label=0,因為逾期小於5天的有些可能是因為忘記的,意願上並不願意真正逾期。正負樣本比例,不一定非得按自然分布來,逾期樣本可以適當多一些,這樣更能準確反映負樣本的資訊。
2)如何根據測試樣本的score分數劃線篩選客戶呢?(前提:測試樣本共計13400個,其中1142個逾期的,逾期率為8.5%)
二、營銷模型
1)抽取樣本的時候,註冊或者進件的可以混在一起作為正樣本,比例可以按6:4,因為進件率基本就在40%左右。負樣本就是營銷無反應的那批客戶。
2)建模的時候,由於**或簡訊營銷往往集中在幾天,所以負樣本就往往集中在乙個月的幾天,比如抽取9,10,11月作為樣本,那負樣本都只集中在這三個月的中的某幾天,正樣本還分布比較均勻一些。這種情況的樣本,如果按時間排序分配test、valid、train,經實際測驗發現,會造成test的ks值高於valid,valid的ks值會高於train,不符合常規結果。其原因就是負樣本分佈及其不均衡導致的,比如11月的負樣本在1,2,3三天,這樣造成test的樣本集裡面,負樣本可能沒有,或者佔比一點點。解決辦法就是打散了隨機分配三種樣本,比例還可以是6:2:2。
這個也是告訴我們,正負樣本比例在train,valid,test三個集裡面一定要一致切相對均衡。
三、營銷聯合建模案例一(bj)
在進行營銷建模的時候,正負樣本各10萬,pr曲線和ks曲線分別出現了如下奇怪的圖形,此時ks=0.34,auc=0.71,top35recall=0.51:
如上圖pr曲線和ks曲線均出現了斷崖式的奇怪形狀,而且roc曲線前部分還可以,後半部分接近直線了,也比較一般。經過看人數分組和分數分組才發現,是有將近1.8萬人最後**的分數一模一樣,這就很奇怪了,怎麼會這麼多人分數一模一樣呢?
把1.8萬人提出來分別看各個特徵才發現,原來這部分人的所有特徵都為null,也就是與第三方撞庫的時候沒有匹配上,而在建模前也沒有剔除這部分使用者。剔除這部分使用者後曲線一切變正常了,此時ks=0.466,auc=0.792,top35%recall=0.554,如下:
總結:
1)建模前一定要把缺失率非常高的使用者剔除掉,尤其接近100%缺失率的使用者,否則影響模型效果。
2)曲線不正常了,一定要細細分析一下什麼原因,往往都是資料有問題造成的,通過曲線異常能幫助找出資料的問題。
CATIA先進的混合建模技術
catia先進的混合建模技術 設計物件的混合建模 在 catia的設計環境中,無論是實體還是曲面,做到了真正的互動操作 變數和引數化混合建模 在設計時,設計者不必考慮如何引數化設計目標,catia提供了變數驅動及後引數化能力。幾何和智慧型工程混合建模 對於乙個企業,可以將企業多年的經驗積累到cati...
數學建模學習心得 建模教程
2.2準備電腦基本軟體 2.3 跟學校請假宣告 2.4 隊友分工 2.5 賽前說明 2.6 比賽場地 3 建模期間 我以國賽建模過程舉例 3.3 查重 3.4 及時交 4 建模全過程技巧 5 我的建模感受 6 推薦博文 7 結束語 前言 編輯初衷是教會我小夥伴兩三天上手基本的建模操作,因為建模有創新...
數學建模心得與總結
參加數學建模的 賽,是2019華為杯中國研究生數學建模,拿了國三。因為第一次參加,感覺已經十分的激動了。五一前兩天,小夥伴叫著一起參加五一建模聯賽,趕鴨子上架了。這次參賽完,感覺數學建模還有一定技巧性與方式方法的。可能畢業後就不會參加這模擬賽了,就這兩次參賽經驗,還是有必要總結總結回顧回顧的。最最重...