大資料與資料脫敏

2021-08-20 17:13:15 字數 869 閱讀 1192

單列並不能定位個人,但是多列資訊可用來潛在的識別某個人,這些列被稱為半識別列,如郵編號,生日及性別等。美國的乙份研究**稱,僅使用郵編號,生日和性別資訊即可識別87%的美國人[3]。

包含使用者敏感資訊的列,如交易數額,疾病以及收入等。

其他不包含使用者敏感資訊的列。

屬性洩露,當資料使用人員根據其訪問的資料表了解到某個人新的屬性資訊時,稱為屬性洩露。個人標識洩露肯定會導致屬性洩露,但屬性洩露也有可能單獨發生。

成員關係洩露。當資料使用人員可以確認某個人的資料存在於資料表中時,稱為成員關係洩露。成員關係洩露相對風險較小,個人標識洩露與屬性洩露肯定意味著成員關係洩露,但成員關係洩露也有可能單獨發生。

背景知識攻擊。對於圖二半標識列泛化後的資料集,假如攻擊者知道alice郵編為47673,年齡為36,則alice一定對應於後面三條記錄,如果攻擊者知道alice患有心臟病的機率很小,則能判斷alice很有可能患有癌症。

例如,對於hiv的測試資料,測試結果列可能為陰性或是陽性。對於10000條記錄,可能99%的記錄都是陰性的,只有1%是陽性的。對於使用者來說兩種不同的測試結果敏感程度也是不同的,測試結果為陰性的使用者可能不介意其他人看到他的測試結果,但是測試結果為陽性的使用者可能更希望對別人保密。為了生成2-deversity的測試資料集,會丟失大量的資訊,降低資料分析挖掘的價值。

l-diversity標準無法防禦特定型別的屬性資料洩露。

可管理。結合大資料平台的使用者認證體系,許可權管理體系,以及隱私資料不同保護級別的許可權管理體系,實現對隱私資料基於審批的資料訪問機制。結合公司制度,規範,法務等管理,實現在盡可能保護使用者隱私資料,減少資料洩露風險的前提下,最大化保留資料分析挖掘的價值。

可審計。對資料的訪問要保證可回溯,可審計,當發生資料洩露時,要保證能夠通過審計日誌找到對應的洩露人員。

資料脫敏技術

敏感資料 如信用卡號碼 個人識別資訊 如社會安全號碼 醫療診斷和甚至非個人的敏感資料 例如公司財務資訊和智財權 的 是由於企業員工和外部人士濫用職權或工作失誤所致。資料脫敏技術的目是通過從客戶端隱藏敏感資料,以防止這些資料的濫用。技術 商提供了多種資料脫敏技術,例如用相似的字元替代一些字段 用遮蔽字...

資料脫敏問題

上面說到,在 涉及客戶安全資料或者一些商業性敏感資料的情況下 對資料進行改造,說明我們要進行改造的資料是涉及到使用者或者企業資料的安全,進行資料脫敏其實就是對這些資料進行加密,防止洩露。對於脫敏的程度,一般來說只要處理到無法推斷原有的資訊,不會造成資訊洩露即可,如果修改過多,容易導致丟失資料原有特性...

Oracle資料脫敏

簡介 所有涉及客戶資訊 姓名 聯絡 電子郵件位址 住址 收件位址 身份證號 護照號 信用卡號 的系統均不得在開發資料庫 測試資料庫中保留真實資料,均要進行資料脫敏。下邊直接進入正題,oracle資料處理 1.手機號脫敏 update table set 列 case when 列 is notnul...