差分隱私簡介

2021-09-28 04:46:49 字數 1743 閱讀 3390

time: 20191008

差分隱私描述了乙個承諾,該承諾是由資料持有者或者管理員向資料主體發起:將資料用在任何研究、分析中,資料主體不會受到不利影響,且不管其他研究,資料集以及資訊源是什麼。

差分隱**理的是從個體上學習不到任何資訊而整體上可以習得有用資訊的悖論。

比如說,醫療資料庫可以告知我們抽菸會導致癌症,能夠影響保險公司對抽菸者長期醫療費用的看法。抽菸者被這種分析傷害了嗎?可能是,比如保險費會上公升,如果保險公司知道該使用者抽菸的話。反過來,抽菸者會得到幫助,他能了解到他自己的健康風險。

差分隱私的角度來看,沒有洩露。

根本原因在於:無論他在不在這個研究之中,對他的影響都是相同的。也就是沒有他,該研究不受影響。他只是這個大資料之下的乙個很小的分子,只是結論會覆蓋到他,他的存在並不對結論造成很大的影響。

這讓人很無力,大資料的殘酷就在這裡。你的資料不曾參與分析,但其他人的資料結果得出的結論仍然可以覆蓋到你這裡來。

差分隱私能夠保證得到相同的結果,比如結論是抽菸導致癌症,與個人是否在資料集中無關。尤其是它能保證任意輸出序列(對應著查詢)基本上是均等概率出現,與個體的出現與否無關。

這裡的基本上,由引數ϵ

\epsilon

ϵ來表達。該值越小,則私隱性越好,也意味著響應的精度下降。

差分隱私是一種定義,不是單指乙個演算法。

給定乙個計算任務t

tt,以及給定ϵ

\epsilon

ϵ,有很多不同的差分隱私演算法能夠實現ϵ

−\epsilon-

ϵ−差分隱私下的t

tt任務。

其中有些演算法的精度會比其他的要好。

當ϵ

\epsilon

ϵ比較小時,尋找高精度的ϵ

−\epsilon-

ϵ−差分隱私演算法會比較困難。

差分隱私是將隱私問題裁剪為針對隱私保護下的資料分析策略的一種定義。

我們先來看看其他解決該問題的考慮點。

資料不能在完全匿名的情況下仍然有用。

一般來說,資料越豐富,資料能夠提供的資訊越有價值。

匿名化和溢位個人身份資訊

差分隱私能緩解這種聯動攻擊。

差分隱私

差分隱私是一種資料訪問機制。比如訪問imdb不會發生和netflix資料庫的聯動攻擊。

重新定位匿名記錄不是唯一的風險。

能通過其他輔助資訊定位到資料的所有者顯然不是我們想要的結果。定位到姓名等,會暴露資料的所有者,這些資料可能包含使用者的敏感資料,定位到個人,會對個人造成傷害。

在大資料集中查詢並不保險。

以為資料集很大,就能保證隱私,不會被定位有些時候是不可行的,可以通過組合一些問題來獲悉個人資訊。

查詢審查是有問題的。

有人會想,審查查詢和響應序列,在涉及到隱私洩露的時候,攔截查詢。

有兩點不可行,首先是拒絕回答查詢本身是公開的。其次,查詢審查是很耗費計算力的。

結論統計並不安全。

ps. 本文是對《the algorithmic foundations of differential privacy》第一章的學習筆記。

2019.10 update:

end.

差分隱私 python 差分隱私

差分隱私的由來 想要在乙個統計資料庫裡面保護使用者的隱私,那麼理想的隱私定義是這樣的 訪問乙個統計資料庫而不能夠洩露在這個資料庫中關於個人的資訊。也就是說統計資料庫應該提供乙個統計值,但是對於個人的資訊不應該被查詢到。但是,這個理想的定義是不可行的,它並沒有考慮到輔助資訊。比如這麼乙個例子 乙個關於...

差分隱私學習

差分隱私 是對統計資料庫洩漏問題提出的新的隱私定義。在此定義下,對資料集的計算處理結果對於具體某個記錄的變化是不敏感的,單個記錄在資料集中或者不在資料集中對計算結果影響微乎其微。所以,一 個記錄因其加入到資料集中所產生的隱私洩露風險 被控制在極小的 可接受的範圍內,攻擊者無法通過 觀察計算結果而獲取...

差分隱私基礎

資料的隱私保護問題最早由統計學家dalenius 在20世紀70年代末提出,他認為,保護資料庫中的隱私資訊,就是要使任何使用者 包括合法使用者和潛在的攻擊者 在訪問資料庫的過程中無法獲取關於任意個體的確切資訊 從已有的研究來看,k anonymity及其擴充套件模型在隱私保護領域影響深遠且被廣泛應用...