機器學習與內部威脅

2021-10-14 02:57:53 字數 4106 閱讀 9436

在企業內部,由有各種訪問許可權的員工、合同工、供/承包商和裝置**商構成了企業的內部人員(insider),由他們引起的任何威脅都稱之為內部威脅(insider threats)。內部威脅之所以很快引起重視,原因很簡單:其一,在完全被信任的內部一旦產生威脅,造成損失的程度遠遠大於來自外部的攻擊;其二,內部威脅很難被發現。傳統的安全措施,例如白名單/黑名單阻止訪問、ip過濾、新增防火牆和入侵檢測等,這些技術的核心都是基於信任域的建立,旨在將威脅拒之門外。但是當威脅來自內部,他們就很難發揮作用。處理內部威脅需要有完全不同的策略。

眾所周知,目前應對內部威脅的有效方法是監控內部人員的上網行為並發現其中的異常,這些異常行為中可能具有真正的安全威脅。資訊保安和風險管理領域的從業者越來越關注行為分析技術,並在其基礎上開發內部威脅防護解決方案,員工/使用者活動監控(uam)、使用者和實體行為分析(ueba)、資料防洩漏(dlp)等細分安全垂直領域的產品或多或少都包含了行為分析功能。機器學習和人工智慧也開始以行為分析的創新者出現在很多產品的技術***上,試圖成為新一代資訊保安領域的智慧型專家解決方案。

為什麼機器學習在檢測內部威脅方面能發揮很大作用呢?企業內部威脅的表現形式各不相同,其產生的根源可能是惡意的,也可能來自無意或偶然的行為:心懷不滿或壓力大、無作為、內外勾結、尋求**度、任性魯莽、準備離職,甚至是其他無意但卻無知的行動,這些內部員工的行為都是潛在的威脅風險。即使我們知道要監控尋找的目標內容,但從企業海量活動日誌中發現內部異常行為的點,並且將這些點關聯起來獲得完整的上下文,對於人工操作來說基本上是不可能的。當企業使用者數量很大,需要監控的點變成數十萬個,甚至超過數百萬個的時候,發現內部威脅的難度就可想而知了。機器學習恰好就是這樣一種可以很好地處理這樣的業務場景,在如此之大的資料集上建立基線並據此找到異常的有效方法。

機器學習的乙個優勢是該技術可以基於多個資料來源尋找關聯線索,例如,機器學習可以標記為有風險的某內部人員作為起始索引檢視分析其在企業內部相關聯的所有行為:網路登入/登出時間、位置資料、檔案傳輸行為、社交**互動、工作績效、旅行歷史記錄等,基於以上檢視、分析工作等,向企業安全運維人員發出合理的警報通知,並且使用其他更多的分析工具(例如siem)進行更進一步的深入調查,以確認該行為是真正的安全事件或風險,或正常業務的「誤報」(譬如員工分配了新專案,觸發了該使用者之前未執行的一系列行為活動而產生的警報)。分析師的最終審查和決定應該反饋給分析系統,以提高機器學習檢測演算法的準確性。

當用於檢測企業內部威脅時,機器學習演算法以下的優點得到充分發揮:

1、監督需求的減少

機器學習的自動化屬性,大大減少了資料分析工作中對人工監督的需求。設定完成後,系統可以自動處理那些包括「發現」和「分類」等的大多數分析任務,在某些情況下,甚至可以對特定異常行為採取自動響應措施。

2、優異的可擴充套件性

機器學習可以處理來自多個資料來源的海量資料,這個屬性使其適合於大規模部署。實際上,資料集越大,系統可以「學習」的效果就越好。

3、高效的關聯和回歸

機器學習能夠以人工操作無法達到的速度和效率來做資料的查詢和分類工作,演算法也長於從大量背景噪音中精確尋找到有效訊號,這些屬性都非常適合將使用者的個別異常行為從其大量的正常活動中識別出來。

4、「誤報」數量的減少

將無害行為誤認為是惡意行為因而導致「誤報」的產生,這是目前安全分析系統的最大問題,大量技術上非誤報而業務上的「誤報」浪費了企業安全運維人員時間和精力。更糟糕的是,當安全團隊不斷收到相同的錯誤警報時,「狼來了」的故事就會重演,即當真正的安全威脅事件發生時往往會被忽略。而機器學習領域中諸如決策樹、基於規則的分類、自組織圖、聚類等多種演算法技術都可以用來在提供可靠的安全性前提下做到減少「誤報」。

5、更快的檢測和響應速度

正是當今不斷優化的模型演算法和硬體技術,為機器學習提供了對海量資料進行高效分析和異常檢測的可能,進而使得企業可以利用機器學習更快更好地發現企業內部威脅。

6、持續不斷的優化提高

這可能是在網路安全領域中使用機器學習技術最有價值的地方。天生具有自我演化發展屬性的機器學習可以通過處理更多的案例,同時從人工干預中獲得更多合理反饋,因此系統本身可以得到持續完善優化。更重要的是,作為一種新興技術,目前機器學習領域中還處在日新月異的優化提高中,該屬性與企業網路安全的發展也非常匹配。因為企業內部威脅也在無時無刻不斷發展中,我們恰恰需要能夠與之並駕齊驅、持續不斷更新安全解決方案。

行為分析、威脅檢測、分類和風險評分這些工作的實際過程很複雜,其複雜程度具體取決於所使用的機器學習演算法,但是大多數系統使用的通用方法是「異常檢測」。這個方法的思路是:正常的使用者行為應與他所在的群體或他本人過去行為(稱為基線)相匹配,偏離此基線發生的事件就是異常行為。一般情況下,這種異常可能是欺詐、破壞、內外串通、資料盜竊或其他惡意意圖的行為。演算法一旦檢測到行為有偏差,便可以標記該事件做進一步調查,或者也可以設計為將該事件與過去記錄的類似事件進行比較。這些之前的記錄是基於培訓資料或共享知識庫(多個企業共享威脅情報等資料庫)上執行監督演算法的結果。在這個監督演算法中,安全運維人員需要人工標記以區分「正常」或「異常」。在最終的輸出結果中,展現的威脅記錄具有風險評分屬性,包括行為頻率、涉及的資源、潛在影響、影響的節點數及其他變數。

將機器學習技術很好地應用於企業內部威脅的系統檢測,需要仔細考慮和認真實現以下基本步驟:

1、資料特徵輸入

作為資料分析的一種技術,機器學習(資料分析)的第一步同樣是使用者和實體的行為資料集的輸入,這個資料集即被系統監控分析的物件。例如應用程式/**、電子郵件、檔案系統、網路、元資料(例如監視時間)、使用者角色/訪問級別、內容、工作時間表等,輸入的資料粒度越精細,系統的準確性就越高。

2、資料特徵分類標籤

這可以通過預定義的靜態分類標準列表(例如pii,phi,pfi,**片段code snippets等),半動態列表(例如檔案屬性和**)或使用ocr型別技術動態地在資料傳輸時發現並標記來完成。監督和非監督分類演算法可以被用來基於這些列表引數過濾分析原始資料。例如,在過濾敏感檔案的監督分類演算法中,可以將「檔案上載」引數作為輸入標準,而使用檔案屬性/標記「機密」引數作為輸出標準。

3、使用者肖像構建

諸如使用者角色、部門/組、訪問級別等資訊將從員工記錄、hr系統、active directory、系統審核日誌、資料倉儲中的切塊資料及其他相關資料來源中提取,這些可以用於行為分析模型中的個性化配置,或之後與企業的訪問控制和特權管理系統整合。

4、行為分析模型生成

不同的機器學習演算法(例如特徵提取,特徵值分解,密度估計,聚類等)生成不同的行為分析模型,與之相關的統計/數學框架也需要進行優化調整。例如,基於回歸的模型可用於**未來的使用者行為或發現信用卡欺詐,群集演算法可用於比較業務物件的合規性(偏離合規)。

5、基線的持續優化

行為分析模型生成基線後,用好機器學習還需要完成乙個重要的工作,即根據特定業務目的進行優化調整。譬如新增時間或頻率分量以在不同的偏差水平上觸發相關規則,定義合適的風險評分等。也可以通過額外的過濾來提高演算法的效率並減少「誤報」數量。例如在**異常檢測中新增域過濾條件以減少需要更深一步檢查的安全事件的數量。幾乎在所有的情況下,個人、小組/部門或企業等不同級別生成的分析基線都可以做類似的優化。

6、與安全產品策略和規則整合

根據模型產生的行為基線用於識別威脅並在發生異常情況時觸發警報。某些員工監控、ueba、dlp產品將這些行為基線與產品的策略和規則引擎整合,試圖能夠主動防禦威脅的發生。這些策略和規則引擎支援以下操作:警告使用者、阻斷流量、通知管理員、執行特定命令或重新記錄以做審計溯源調查之用。

7、人工反饋優化

到目前為止,無論機器學習系統有多麼出色,仍然不可避免錯誤的發生:產生誤報或漏報威脅。當前的技術還無法實現對人類行為的完全精準建模,所以,安全運維人員還不得不評估和進一步人工分析機器學習系統的輸出。幸運的是,機器學習系統能夠響應人工的輸入,通過足夠多的人工反饋,系統的準確性會不斷優化,隨著時間的推移,系統需要的人工干預會越來越少。

行為分析和機器學習雖然有很多優勢,但也有一定的侷限性,並不是應對內部威脅的靈丹妙藥,利用機器學習的最佳方法是將其視為企業安全工具箱中的一種(功能很強大的)。隨著所面臨的威脅形勢的發展趨勢變化,企業需要能夠應對來自內部威脅的動態(非靜態)技術,像惡意使用者、間諜、破壞、欺詐、資料和ip盜竊、特權濫用以及其他難以識別的風險等,而機器學習正是朝著這個正確方向發展的前途無限的技術!

關於全息網御:全息網御科技融合ng-dlp、ueba、ng-siem、casb四項先進技術,結合機器學習(人工智慧),發現並實時重構網路中不可見的」使用者-裝置-資料」互動關係,推出以使用者行為為核心的資訊保安風險感知平台,為企業的資訊保安管理提供無感知、無死角的智慧型追溯系統,高效精準的審計過去、監控現在、防患未來,極大提高it安全運維和安全人員響應事故、抓取證據鏈、追責去責無責、恢復it系統的能力和效率。

機器學習如何威脅企業安全

當內部機器學習轉而針對邊界發起攻擊時,我們該做什麼。機器學習推動企業安全進步,提公升內部網路中的可見性以更好地理解使用者行為。然而,惡意黑客正利用機器學習的內部作為,來攻擊企業邊界。特別需要指出的是,此類攻擊包括 dns隧道 tor網路連線,以及向目錄服務傳送流氓身份驗證請求。我們通常看到的,是網路...

內部威脅檢測之異常檢測演算法

一般現有的內部威脅檢測演算法都會被轉化為異常檢測來做,我個人認為在內部威脅檢測領域除了異常檢測這一killing part之外,識別攻擊動機以及區分異常和攻擊也是重點 大型立flag現場 另一篇 中了,我就寫這個 首先這篇文章就對現有的異常檢測演算法做乙個綜述。內部威脅檢測主要是基於使用者的網路 檔...

機器學習與深度學習

機器學習簡介 機器學習是什麼 無序資料轉化為價值的方法 機器學習價值 從資料中抽取規律,並用於 未來。機器學習應用舉例 分類問題 影象識別,垃圾郵件識別 回歸問題 股價 房價 排序問題 點選率預估,推薦 生成問題 影象生成,影象風格轉換,影象文字描述生成。機器學習的應用流程 線下訓練到線上服務 機器...