這是 mit technology review 12月11日的 newsletter 的部分摘錄,大概意思是,iphone 上的 siri 在聽到我們個人說 "hey siri" 時有反應,但是對其他人說的都沒有反應,按理來說,訓練乙個這種模型,會需要收集我們大量的聲音資料,並且這些資料都會儲存在蘋果,但蘋果並沒有這麼做,那它是怎麼做到的呢?這就說到了今天的主角,聯邦學習 (federated learning)。
聯邦學習是一種訓練資料去中心化的機器學習訓練方式,最早在2023年由谷歌提出,目的是通過對儲存在大量終端的分布式資料展開訓練學習,最終彙總得到乙個高質量的中心化機器學習模型。
在蘋果 siri 的例子上,每台手機都是乙個終端裝置,我們的音訊資訊都只儲存在自己的手機上,蘋果通過聯邦學習的方式,用我們每個人的音訊都訓練得到了乙個本地模型,然後再整合成乙個統一的模型。通過這中方式,既能得到定製化的模型,又能保護使用者資料隱私。
上面這個圖是 nips 2019 workshop 上,google 聯邦學習的負責人在會上的講義,這個領域相對較新,但在2023年的關注度有了跨越性的增長。聯邦學習到底解決了什麼問題呢?
使用者個人的資料隱私越來越受重視,前有歐盟的 gdpr,在當時短時間內逼出一堆公司軟體條款變更,最近乙個月印度也爆出將要發布新的政策來保護印度公民的資料,初次之外,中國有網路安全法和資料管理辦法,美國加州有 ccpa《加州消費者隱私法案》,所有這些法律的頒布,都指向了使用者資料隱私保護,可以預見,在沒有資料和隱私保護的情況下,使用使用者的資料去做訓練,難度會越來越大。
從另乙個角度來說,一些使用者的資料隱私保護的要求是更高的。比如說醫療資料,病人不願意,醫院也不改洩漏,沒有資料,怎麼把機器學習和深度學習這一套東西用到醫療行業裡?
在大資料時代,我們期待的是有大量的資料來完成模型的訓練,但大資料往往只專屬於幾個巨頭,多數的公司是沒有足夠的資料的,並且不同公司之間的資料共享基本是不可能的,法律不允許,公司政策不允許,公司利益不允許等,這導致了眾多公司只擁有自己的一部分小資料,難以用來訓練乙個好的模型。
上圖 nvidia 和倫敦國王學院合作的專案,是聯邦學習應用在醫療領域。每個醫療機構的使用者資料是很敏感的,不能共享,但是乙個醫療機構內的資料量太小,沒法訓練處好的模型,用聯邦學習訓練可以解決這個問題,訓練流程是這樣的:
雲端伺服器將乙個統一模型下發給多個醫療機構端的伺服器。
每個醫療機構用本地的資料進行幾個 batch 的訓練。
各個醫療機構把訓練之後的模型引數上傳到雲端伺服器。
雲端伺服器將從多個醫療機構那邊得到的模型訓引數進行整合、更新,一輪訓練結束。
雲端伺服器將更新後的模型重新下發給多個醫療機構,開始下一輪訓練。
在整個訓練過程中,各個醫療機構的資料沒有共享,使用者隱私得到保護,同時又能共享訓練處乙個不錯的模型可以共用。
不過,上述的這個過程並不是完全保密的,比如雲端伺服器是可能可以從每個醫療機構傳上來的模型引數反推出一些使用者資料,有挺多加密的方法可以加入到機器學習和深度學習的過程中,來確保全鏈條的隱私安全,可以用的一些方法有同態加密,差分隱私,安全多方計算等。
聯邦學習從提出到現在就三年多的時間,還有挺多問題沒有被解決,或者沒有被完全解決,比如終端資料的異構性、聯邦學習整套框架的工程化、雲端模型整合的方式等,還是有不少可以做研究的方向。
github:
蘋果漏洞 Siri會洩露你的個人資料
分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!如果我告訴你,只要30秒,就可以讓任何人從你朋友的蘋果裝置上開啟siri功能,然後拿到你的姓名 電子郵件位址 號碼甚至是你的 你會擔心嗎?蘋果智慧型裝置上的siri可能被濫用的情況是會讓任何人使用語音識別來取得裝置上的資料,即便你已經設定密碼。鎖定...
網購時如何看好你的錢包和個人資料
方便 簡單和多樣化只是網路購物越來越受歡迎的眾多原因之一。以消費者為主的電子商務不斷的蓬勃發展,在2013年初創收了498億美元,較之去年增加了16 你甚至不需要通過你的筆記本或台式計算機進行購物。手機正在成為一種流行的電子商務方式。事實上,花在網購上的錢多數是由手機來操作完成的。這種手機購物方式,...
這個專案讓你用區塊鏈分享個人資料
mit的研究生所帶來的乙個新專案會為雲資料共享帶來更大的靈活度 幫助公司分析客戶的資料,並且保證客戶們的私人資訊保安,並在不共享資料的情況下允許貸款申請人提交自動承保資訊。消費者甚至可以根據研究目的來售賣他們的資料,並不必擔心它會通過網際網路或者落到未知的人手裡而洩露。enigma專案由mit的研究...