差分隱私應用與展望

2022-07-10 09:27:10 字數 1821 閱讀 2778

如何設計乙個滿足差分隱私的演算法?

一般做法:從乙個不滿足差分隱私的演算法出發,往演算法裡適當地加入一定噪音,以使其輸出滿足差分隱私的要求。

假設我們有乙個病患資料集d,考慮以下資料庫查詢:

如果我們要發布這個查詢結果,如何才能滿足\(\epsilon\)-差分隱私?

我們首先考慮這個查詢結果有多依賴於某個特定病人的資訊,如果我們修改d中任意乙個病患的資料,上述查詢結果最多會改變1,所以我們能用雜訊來「掩蓋」這種不大於1的改變,就能滿足差分隱私。具體來說,我們可以往查詢結果中加入乙個服從拉普拉斯分布的雜訊。

引數\(\lambda\)設為\(\frac\),即能滿足\(\epsilon\)-差分隱私。

如果要發布的結果是下面這個查詢結果呢?

首先,我們修改乙個病患的資料,則上述查詢結果最多改變3,我們可以對其加入拉普拉斯雜訊,並把引數

\(\lambda\)設為\(\frac\),

一般而言,如果我們要發布一組數值型查詢結果,我們可以對每個結果加入獨立的拉普拉斯雜訊來滿足差分隱私。

雜訊引數\(\lambda\)取決於當我們修改乙個人的資料時,查詢結果總會改變多少。一組查詢總共的「最大改變」被稱為他們的敏感度,取\(\lambda\)=敏感度/\(\epsilon\)即能滿足\(\epsilon\)-差分隱私。

如果我們要發布的資料不是數值型的話,我們可以用其他方法引入雜訊,下面介紹一種資料採集的簡單機制:隨機化回答。

假設我向一組人提問乙個敏感的是非題,出於隱私,有的人可能不願意給真實答案,解決方案是讓每個人在他的答案中加入雜訊。

隨機化回答可以滿足\(\epsilon\)-差分隱私,直觀原因是:由於其隨機性,攻擊者不能中隨機化的輸出反推出輸入到底是「yes」還是「no」,只要根據\(\epsilon\)來調整隨機化的概率即可。但是我們依然可以通過隨機化回答的輸出來回答如下問題:

大概有多少人的真實回答是「yes」?

假設有10000人用隨機化回答給了我回覆

每個人以80%概率給我假回覆

據此,我可以判斷剩下的真實回答裡大概有1500個yes和500個no

總結:技術難點:

如何高效地計算查詢的敏感度

如何將差分隱私模組整合到現有資料庫中

展望:現有演算法尚未能在隱私保護、查詢準確性及計算效率三者間取得很好的平衡,例如:uber的chrous在不少查詢中誤差可達100%以上

神經網路通常是用隨機梯度下降來進行訓練的:

從一組隨機的神經網路權重引數出發

拿一組隨機選取的元組來計算權重的梯度

用梯度來更新權重引數

重複步驟2-3

tensorflow privacy對步驟2中的梯度加入雜訊,以保證訓練過程滿足差分隱私。

關於差分隱私機器學習,現有演算法的不足:

另有一些新方向,如:

場景:從移動裝置中採集使用者資料,入應用程式的使用時長等

為滿足差分隱私,讓使用者採用類似於隨機化回答 的方法來提供資料

例子:谷歌chrome、蘋果iphone、ipad和mac、微軟windows10

技術難點:需要採集的資料可能比較複雜,無法用傳統隨機化回答問題

為此,谷歌,蘋果和微軟都因其採集需要提出了新的隨機化演算法

現有不足:

基本原理:

例子:美國普查局的一些資料產品,如

技術難點:

現有不足:

要解決這一問題,需要計算機界與法律界相互合作

近來已有學者嘗試中法律條文出發來設計隱私保護模型,並借鑑差分隱私的思想

差分隱私及應用

差分攻擊是通過比較分析有特定區別的明文在通過加密後的變化傳播情況來攻擊密碼演算法的。差分攻擊是針對對稱分組加密演算法提出的攻擊方法,看起來是最有效的攻擊des的方法 之所以說看起來,是因為差分攻擊需要很大的空間複雜度,實際上可能不如野蠻攻擊具有可操作性 2000年以前,差分攻擊就被證明對md5的一次...

差分隱私 python 差分隱私

差分隱私的由來 想要在乙個統計資料庫裡面保護使用者的隱私,那麼理想的隱私定義是這樣的 訪問乙個統計資料庫而不能夠洩露在這個資料庫中關於個人的資訊。也就是說統計資料庫應該提供乙個統計值,但是對於個人的資訊不應該被查詢到。但是,這個理想的定義是不可行的,它並沒有考慮到輔助資訊。比如這麼乙個例子 乙個關於...

差分隱私學習

差分隱私 是對統計資料庫洩漏問題提出的新的隱私定義。在此定義下,對資料集的計算處理結果對於具體某個記錄的變化是不敏感的,單個記錄在資料集中或者不在資料集中對計算結果影響微乎其微。所以,一 個記錄因其加入到資料集中所產生的隱私洩露風險 被控制在極小的 可接受的範圍內,攻擊者無法通過 觀察計算結果而獲取...