聯邦學習綜述

2021-10-13 07:29:21 字數 2121 閱讀 7503

在聯邦學習***[1]中給出了明確的聯邦學習的定義:

綜上,聯邦學習的目的是:使多個參與方在保護資料隱私、滿足合法合規要求的前提下繼續進行機器學習,解決資料孤島問題。在實際中,孤島資料具有不同的分布特點,根據這些特點,可以提出相應的聯邦學習方案。以孤島資料的分布特點為依據可將聯邦學習分為三類:橫向聯邦學習、縱向聯邦學習和聯邦遷移學習,下面將逐一進行介紹。

圖 1 橫向聯邦學習

在兩個資料集的使用者特徵重疊較多,而使用者重疊較少的情況下,可將資料集按照橫向(使用者維度)進行切分,並取出雙方使用者特徵相同而使用者不完全相同的那部分資料進行訓練,這種方法叫做橫向聯邦學習[1]。google在2023年提出了針對安卓手機模型更新的資料聯合建模方案[2, 3],在不同的使用者使用手機時,在手機本地持續地更新模型引數,並將引數上傳至雲端。從而利用不同使用者的、特徵維度相同的這些資料建立乙個橫向聯邦學習方案。

圖 2 縱向聯邦學習

在兩個資料集的使用者重疊較多,而使用者特徵重疊較少的情況下,可將資料集按照縱向(特徵維度)切分,並取出雙方使用者相同而使用者特徵不完全相同的那部分資料進行訓練,這種方法叫做縱向聯邦學習[1]。乙個常見的例子是:有兩個不同機構,一家是某地的銀行,另一家是同乙個地方的電商。它們的使用者群體很有可能包含該地的大部分居民,因此使用者的交集較大。但是,由於銀行記錄的都是使用者的收支行為與信用評級,而電商則保有使用者的瀏覽與購買歷史,因此它們的使用者特徵交集較小。縱向聯邦學習就是將這些不同特徵在加密的狀態下加以聚合,以增強模型能力的聯邦學習。

目前,邏輯回歸模型、樹型結構模型和神經網路模型等眾多機器學習模型已經逐漸被證實能夠建立在這個縱向聯邦學習體系上。

圖 3 聯邦遷移學習

在兩個資料集的使用者與使用者特徵重疊都較少的情況下,我們部隊資料進行切分,而利用遷移學習克服資料或標籤不足的情況,這種方法叫做聯邦遷移學習。還是借用在縱向聯邦學習小節中銀行和電商的例子,不同的是,銀行和電商不在同乙個地方,而是相去甚遠。這導致,受到地域的限制,銀行和電商的使用者交集很小。同時,二者的資料特徵交集也很小。在這種情況下,需要在聯邦學習中引入遷移學習,用於解決單邊資料規模小、標籤樣本少的問題,來提公升模型的效果[1]。

目前業界中主要的聯邦學習框架有fate[4]、tensorflow federated[5]、paddlefl[6]、pysyft[7]等。

open minded開源的pysyft框架,較好地支援橫向聯邦學習。該框架同時支援tensorflow、keras、pytorch,為使用人員快速上手提供了較多的選擇。pysyft提供了安全加密運算元,數值運算運算元,及聯邦學習演算法,使用者也可以高效搭建自己的聯邦學習演算法。相比較fate,openminded尚未提供高效的部署方案及serving端解決方案,相比工業應用,更適合作為高效的學術研究、原型開發的工具。

谷歌開源的tensorflow federated框架,截止2023年12月已發布至0.11版本,較好地支援橫向聯邦學習。其中,可以通過 federated learning (fl) api,與tensorflow/keras互動,完成分類、回歸等任務。使用者也可以通過真提供的federated core (fc) api,通過在強型別函式程式設計環境中將tensorflow與分布式通訊運算子相結合,簡潔地表這新的聯合演算法。目前tensorflow federated在安全加密運算元上缺少開放實現,同時缺少對線上生產的完善支撐。

近年來,資料的孤島分布以及對資料隱私監管力度的加強正在逐漸成為人工智慧的下個挑戰,聯邦學習的產生為人工智慧打破資料屏障和進步發展提供了新的思路。它實現了在保護本地資料的前提下讓多個資料擁有方聯合建立共有的模型,從而實現了以保護隱私和資料安全為前提的互利共贏。本文概括性地介紹了聯邦學習的基本概念、構架與技術原理,並且嘗試在些應用場景中**聯邦學習對人工智慧發展的巨大助力。期待在不遠的將來,聯邦學習能夠幫助打破各領域、各行業的資料壁壘,在保護資料隱私和安全的前提下形成個資料與知識共享的共同體,並同時解決了獎勵對聯盟做出貢獻機構的共識機制,必將能為人工智慧帶來的紅利落實到社會的各個角落。

聯邦學習在未來,可以從以下角度進行研究:

聯邦學習 聯邦學習

文章內容主要來自文末網盤內部分資料 最近微眾舉辦了乙個面向高校大學生的ai比賽,題目如下 基於微眾提出的聯邦學習模型,設計一款有應用場景的產品。資料來源之間存在著難以打破的壁壘,一般情況下人工智慧的所需要的資料會涉及多 個領域,例如在基於人工智慧的產品推薦服務中,產品銷售方擁有產品的資料 使用者購買...

聯邦學習學習心得(1) 聯邦學習簡介

國際社會上對資訊保安 個人隱私的問題越來越重視,各種相關的法案相繼頒布,對私人資料的管理 監督 保護更加全面化 嚴格化 密集化。各個公司對各自的資料也越來越重視,作為資產不可能拿出來分享,這就造成了資料孤島的現象。同時與傳統的機器學習 machine learning 和深度學習 deep lear...

聯邦學習簡介

對聯邦學習做個簡單的記錄 聯邦學習定義 定義n個資料所有者,他們所有人都希望通過合併各自的資料來訓練機器學習模型。一種常規方法是將所有資料放在一起,並使用d d1 u d2 u dn來訓練模型msum。聯邦學習是一種學習過程,其中資料所有者共同訓練乙個模型mfed,在該過程中,任何資料所有者fi都不...