欺詐檢測 大資料的安全管理

2021-09-30 21:39:49 字數 1402 閱讀 7574

現在越來越多的銀行業務依賴大資料和物聯網基礎設施,比如,移動支付、網上銀行和智慧型售貨機。但在這些交易過程中存在大量的個人敏感的身份資訊需要保護。大資料安全是乙個極大挑戰的問題,因為作弊者在不斷的尋求新方法來獲取到有價值的資料。為了防止這些壞傢伙,人們需要不斷的去設計和發布新的大規模**模型來**作弊者的行為。不光銀行需要大資料安全保護,任何含有對個人使用者資訊personally identifiable information (pii)處理的商業交易都要做好保護,比如,醫療機構和保險業。

最近有好訊息稱,有越來越多的機器學習的專家、新的技術和工具來提供有效的分析模型,能夠鑑別潛在的 欺詐交易和釣魚式攻擊 。但不是所有公司都擁有機器學習專家來做這方面的工作,因此這些公司就需要從外面請一些專家來建立有效的模型來抵制作弊者。與此同時,他們又不想自己使用者的資訊讓其他公司知道。通過匿名使用者個人資訊pii還保證不了這一點。那有沒有一種較好的方法能夠既利用外部力量而又不暴露本公司的敏感的資料呢?

圖一在紐約最近的一次大資料會議上,大資料公司mapr的首席架構師ted dunning發表了一種新方法來解決上述問題。

找出被盜商家

現在乙個新的趨勢是:作弊者通過成千上萬的使用者盜取個人資訊來進行許多小批量的欺詐交易。這樣他們可以在很短的時間裡盜取百萬美元/英鎊/歐元,通過被盜的商家或者**來獲取大量的顧客的金融資訊。作弊者不是偷一張信用卡然後去購買大宗商品,因為這種行為容易被現在的安全軟體探測到,而是通過欺騙交易來進行大批量的信用卡交易。這些小額購買常常被使用者忽略,但是恰恰會被不良作弊者利用。為了應對這種潛在的通過被盜商家來進行盜竊的行為,一家大型金融機構採用大資料公司mapr的技術來構建新的模型來檢測這種分布式攻擊。他們的目標是改善自己的欺詐檢測的能力:a)探測出更多的可疑事件,b)更及時的檢測,在出現嚴重的影響之前盡可能的快的去關閉受影響的賬戶。

銀行有海量的個人交易行為資料,ted的方法是把銀行的每個顧客的交易資料按時間序列轉換,在商家出現被盜之前找出來。他採用的相似估計的方法把每個被盜商家的特徵點提取出來,然後進行打分。但問題在於即使是出於打擊盜取者,銀行也不太願意把敏感的資料分享出來。

為了克服這個問題,ted寫了乙個可根據個人需求定製的樣本資料生成的** log-synth ,並開源在github上。通過log-synth生成被盜過的使用者歷史資料模擬來找出被盜的特徵。在模擬資料實驗中,被盜商家有較高的打分。

構建好探測模型,並進行引數調優,然後將這個模型應用到真實的交易資料。真實的資料分析更令人振奮,乙個商家打分超過80分的(見圖2),經銀行核實發現這個商家的確存在大量的資料洩露。

圖2 通過模擬資料構建的模型運用到真實資料中的情況

更好的資料模擬的方法

使用人為生成的資料來進行構建模型並不新鮮,但是這種方法卻經常被人忽視。ted發現,想精確模擬真實世界的行為特徵是非常難的一件事,而通過人為生成的資料就可以很好的構建好的模型,這樣更快更容易。

欺詐檢測 大資料的安全管理

現在越來越多的銀行業務依賴大資料和物聯網基礎設施,比如,移動支付 網上銀行和智慧型售貨機。但在這些交易過程中存在大量的個人敏感的身份資訊需要保護。大資料安全是乙個極大挑戰的問題,因為作弊者在不斷的尋求新方法來獲取到有價值的資料。為了防止這些壞傢伙,人們需要不斷的去設計和發布新的大規模 模型來 作弊者...

欺詐檢測 大資料的安全管理

現在越來越多的銀行業務依賴大資料和物聯網基礎設施,比如,移動支付 網上銀行和智慧型售貨機。但在這些交易過程中存在大量的個人敏感的身份資訊需要保護。大資料安全是乙個極大挑戰的問題,因為作弊者在不斷的尋求新方法來獲取到有價值的資料。為了防止這些壞傢伙,人們需要不斷的去設計和發布新的大規模 模型來 作弊者...

大資料分析實戰 信用卡欺詐檢測

假設有乙份信用卡交易記錄,遺憾的是資料經過了脫敏處理,只知道其特徵,卻不知道每乙個字段代表什麼含義,沒關係,就當作是乙個個資料特徵。在資料中有兩種類別,分別是正常交易資料和異常交易資料,欄位中有明確的識別符號。要做的任務就是建立邏輯回歸模型,以對這兩類資料進行分類,看起來似乎很容易,但實際應用時會出...