信用卡反欺詐

2021-09-22 21:06:27 字數 1577 閱讀 4782

信用卡反欺詐

一、背景:

反欺詐是一項識別服務,是對交易詐騙、網路詐騙、**詐騙、盜卡盜號等行為的一項風險識別。其核心是通過大資料的收集、分析和處理,建立反欺詐信用評分和反欺詐模型,解決不同場景中的風險問題。

二、資料集分析

資料樣本為2023年9月歐洲持卡人在兩天內進行的284,808筆信用卡交易,其中493筆是欺詐交易。資料集非常不平衡,被盜刷佔所有交易的0.173%。

它只包含作為pca轉換結果的數字輸入變數。不幸的是,由於保密問題,我們無法提供有關資料的原始功能和更多背景資訊。

特徵v1,v2,… v28是使用pca獲得的主要元件,沒有用pca轉換的唯一特徵是「時間」和「量」。

特徵「時間」包含資料集中每個事務和第乙個事務之間經過的秒數。特徵「金額」是交易金額,此特徵可用於例項依賴的成本認知學習。特徵「類」是響應變數,如果發生被盜刷,則取值1,否則為0。

包含:time(交易時間,需將s轉化為hh-mm-ss形式),v1~v28(經pca轉換後的數字變數),amount(交易金額),class(交易型別,1為欺詐,0為正常)

三、分析思路:

在已知欺詐交易和非欺詐交易的情況下,分析兩類的交易指標的四分位數、最大值、最小值、標準差、方差;四分位數和最大最小值可以繪製出該指標的箱線圖,找出離群點,也可以觀察出該指標中資料的離散程度;

通過方差觀察該指標資料的穩定程度,通過標準差觀察該指標資料的偏離程度,一般都應符合正態分佈;做出圖形後,觀察欺詐交易在圖形中的分布;

通過時間分析,尋找欺詐交易在哪些時間點發生的概率更高;

通過金額分析,尋找欺詐交易金額在哪個區間範圍內概率更高,對比非欺詐交易金額的區間範圍i;

通過對v1~v28的分析,尋找該字段下欺詐交易與非欺詐交易各自的規則;

通過以上的分析,尋找欺詐交易和非欺詐交易的各自特性,當有新的一筆交易進入時,判斷其屬於哪一類的概率更高;

由於資料集受限,如果能對單個交易賬戶分析,在資料中增加交易地點、交易商戶類別、交易頻率的指標都可以使得分析更全面。

四、分析步驟

第一步:檢查資料,是否有缺失值,資料型別是否符合將要進行的分析,結果為無缺失值,同時將欺詐交易與正常交易區分為兩個工作表,方便後面分析;資料總計為28.4萬條;

第二步:將時間換算為小時,總計為48小時,以1小時為間隔進行分組;

根據分析思路……

綜上:

通過對交易金額、交易時間、交易的對映值進行大量資料統計分析,建立欺詐交易和正常交易的模型,當一筆交易進入時,在模型中根據各個特性的得分,得到最終評分,以某閾值為分界點,將交易判定為正常或欺詐。

遇到的問題:

這批資料的處理過程中著實麻煩,每個欄位下有20萬+資料,excel經常出現崩潰。

解決:在每個對映值中隨機抽取500個樣本,輸出描述統計,與欺詐交易的描述統計作比較,

python信用卡管理 python信用卡操作

python python開發 python語言 python信用卡操作 import datetime user dict dict 用來儲存使用者的賬號 註冊系統 def registered try print welcome to register atm system registered...

python信用卡管理 python信用卡操作

import datetime user dict dict 用來儲存使用者的賬號 註冊系統 def registered try print welcome to register atm system registered user input 請輸入您的賬號 registered pwd in...

python信用卡違約 Python信用卡驗證

以下是luhn演算法 mod10 check 的步驟從右到左每隔兩位數。如果這個 翻倍 結果是兩位數,則將兩位數相加 得到乙個數字的數字。現在將步驟1中的所有單個數字相加。將信用卡號碼中從右到左的奇數字數相加。將步驟2和步驟3的結果相加。如果步驟4的結果可被10整除,則卡號有效 否則無效。我的輸出應...