差分隱私 python 差分隱私

2021-10-11 14:49:20 字數 2137 閱讀 8645

差分隱私的由來

想要在乙個統計資料庫裡面保護使用者的隱私,那麼理想的隱私定義是這樣的:訪問乙個統計資料庫而不能夠洩露在這個資料庫中關於個人的資訊。也就是說統計資料庫應該提供乙個統計值,但是對於個人的資訊不應該被查詢到。

但是,這個理想的定義是不可行的,它並沒有考慮到輔助資訊。比如這麼乙個例子:乙個關於某個地區女性的身高的資料庫。可以從資料庫當中查詢到平均值,另外你根據輔助資訊知道alice的身高比平均身高高2cm,那麼你就可以得到alice的身高,即alice身高資訊被洩露了。

我們退而求其次,用一種隱私保護比較弱,但是很實用的方法來定義隱私:乙個人隱私洩露的風險不應該因為這個人的資訊加入統計資料庫而增加。這個定義就是差分隱私。

差分隱私的定義

給定乙個隨機演算法k,若對於任意的兄弟表$t_1$和$t_2$,以及任意的輸出$s\subseteq range(k)$ 滿足:

$pr[k(t_1) \in s] \leq  e^ \times pr[k(t_2) \in s]  $

即:$\frac \leq e^$

則演算法k滿足$\epsilon$差分隱私。下面我來解釋這個定義:

首先是演算法k,這是乙個隨機演算法,隨機演算法意味著演算法的輸出是隨機的,那麼描述它就用概率裡面的知識,比如概率密度函式,演算法的輸出概率等。

$t_1$和$t_2$是兄弟資料表,意味著資料表裡面只相差乙個記錄,即乙個資料表裡面存在使用者的資訊,另外乙個表裡面不存在使用者的資訊。這是為了和上面的隱私定義相對應的,乙個人的隱私洩露風險不應該因為這個人的資訊在資料庫中而增加。

$s\subseteq range(k)$ 而不是$s = range(k)$,是因為在概率密度函式為了確定乙個事件的概率,應該用乙個範圍,而不是用乙個點,在一點的概率總是0,這裡表示的是輸出在乙個範圍。

所以上面函式用概率的方法來進行度量,保證了在k在兄弟表上面,所有範圍內的輸出都很接近。

比如下面的laplace分布,那麼必須保證在整個演算法的分布上面,兩個資料表的輸出都十分的接近,

敏感度敏感度是衡量乙個函式的指標。對於乙個函式$f: d \rightarrow r^d$,其中d是資料庫,函式在資料庫上面進行查詢,返回乙個d維向量,l1敏感度定義如下:

$s(f) = \max \limits_ _1$

當函式f返回的結果是乙個數字的時候,即$f: d \rightarrow r$,那麼l1敏感度為:

$s(f) = \max \limits_ \vert f(d_1) – f(d_2) \vert $

比如查詢函式:滿足特定條件下的記錄有多少條。那麼這個函式返回的結果是乙個數字,它的敏感度$s(f) \leq 1$,即:當查詢結果當中沒有一條滿足的時候,查詢的敏感度為0,當有一條或者多條滿足的時候,敏感度為1。

拉普拉斯雜訊當中$\lambda 、\epsilon  和s(f) $的關係

讓我們再來解釋一遍這三個引數 $\lambda$是拉普拉斯分布裡面的重要引數,決定和分布的方差

$\epsilon$ 是差分隱私定義中用來控制隱私度的乙個度量

$s(f) $是我們定義的函式的敏感度

我們知道函式f在資料庫d上面的輸出為f(d),加上拉普拉斯雜訊以後的概率密度為 $\frac exp(- \frac)$.

那麼它在一點a,取得的概率和該點的概率密度成正比,$pr[k_f(d) =a] \propto exp(- \frac)$

其中$k_f(d)$表示的是,函式f在資料d上面的輸出經過隨機函式k處理以後的值。

那麼對於兄弟資料庫d和d』,有$\frac = \frac = exp( \frac )$

那麼根據絕對值不等式(三角不等式?)$\lvert a \rvert – \lvert b \rvert \leq \lvert a – b \rvert$,可以得到

$exp( \frac ) \leq  exp( \frac )  = exp( \frac )$

可以看出來,若函式f加上引數為$\lambda$的拉普拉斯雜訊,可以滿足$\frac$的差分隱私,

同理,若函式f加上引數為$\frac $的拉普拉斯雜訊,可以滿足$\epsilon$的差分隱私,

直方圖差分隱私

直方圖的特點是這樣的:所有的資料劃分為等寬的方格,修改資料庫裡面的一條記錄只會影響到乙個方格內部的資料,所以直方圖的查詢敏感度為1。因此在直方圖發布的時候直接加上$1/\epsilon$的拉普拉斯雜訊就可以滿足$\epsilon$的差分隱私。

差分隱私學習

差分隱私 是對統計資料庫洩漏問題提出的新的隱私定義。在此定義下,對資料集的計算處理結果對於具體某個記錄的變化是不敏感的,單個記錄在資料集中或者不在資料集中對計算結果影響微乎其微。所以,一 個記錄因其加入到資料集中所產生的隱私洩露風險 被控制在極小的 可接受的範圍內,攻擊者無法通過 觀察計算結果而獲取...

差分隱私簡介

time 20191008 差分隱私描述了乙個承諾,該承諾是由資料持有者或者管理員向資料主體發起 將資料用在任何研究 分析中,資料主體不會受到不利影響,且不管其他研究,資料集以及資訊源是什麼。差分隱 理的是從個體上學習不到任何資訊而整體上可以習得有用資訊的悖論。比如說,醫療資料庫可以告知我們抽菸會導...

差分隱私基礎

資料的隱私保護問題最早由統計學家dalenius 在20世紀70年代末提出,他認為,保護資料庫中的隱私資訊,就是要使任何使用者 包括合法使用者和潛在的攻擊者 在訪問資料庫的過程中無法獲取關於任意個體的確切資訊 從已有的研究來看,k anonymity及其擴充套件模型在隱私保護領域影響深遠且被廣泛應用...