一、聯邦學習定義
聯邦學習是利用分散在各個參與協作方的資料集,通過隱私保護技術融合多方資料資訊,協同構建全域性模型的一種分布式訓練方式。模型的相關資訊(模型引數,結構,引數梯度等)能夠在各參與方之間(可以明文、加密、
新增雜訊等)交換,但是本地訓練資料集不會移動。即資料不動模型動,資料可用不可見。
設當前有n位資料擁有者參與訓練,記為\(}_^\),各自擁有的訓練資料集記為\(}_^\)。
集中式訓練vs聯邦學習
集中式訓練是將所有參與方的資料收集起來,儲存在中心伺服器上,然後訓練乙個機器學習模型\(m_\),這個過程中各個參與方資料相互可見,且所有資料的控制權都交給了伺服器。聯邦學習則不收集各參與方的資料集,協作訓練乙個模型\(m_\)。
狹義/廣義聯邦學習效能損失
設\(v_\)和\(v_\)分別是集中式模型\(m_\)和聯邦模型\(m_\)的效能度量。
設\(\delta\)為任意非負實數。
狹義聯邦學習效能損失:|\(v_-v_\)|
廣義聯邦學習效能損失:\(v_-v_\)
兩種損失視覺化圖如下:
狹義聯邦學習損失是讓聯邦模型的效能盡可能逼近集中式模型,這很容易理解,一般認為聯邦學習模型的效能要弱於集中式模型。但是廣義的聯邦學習損失中聯邦學習模型的效能可以顯著超過集中式模型,這裡的乙個典型案例是如果某個參與協作方的資料集質量很差(客戶端硬體裝置故障導致),則集中式訓練也會用到這些低質量資料,從而影響效能。而聯邦學習系統在開始訓練時會先把乙個檢測出異常的客戶端剔除,然後在剩餘的客戶端裝置上進行聯邦訓練。
二、聯邦學習的分類
橫向聯邦學習(hfl)
橫向聯邦也被稱為是樣本劃分的聯邦學習,適用於各參與方資料特徵重疊的情況,即資料特徵在參與方之間是對齊的。比如兩家不同地區的銀行,雖然客戶不同,但是每個客戶對應的特徵是相同的。
縱向聯邦學習(vfl)
縱向聯邦也被稱為特徵劃分的聯邦學習,適用於各參與方資料樣本重疊的情況,即參與方之間的資料樣本是對齊的,但是特徵不一樣。比如一家銀行和一家電商公司,他們的客戶可能是同一群人,但是同乙個客戶在銀行和在電商對應的特徵顯然不同。
聯邦遷移學習(ftl)
適用於各參與方的資料樣本和資料特徵都很少重疊的情況。以兩個參與方為例,其中一方代表源域,另一方代表目標域,在源域中學習特徵的分布,將源域的特徵資訊遷移到目標域中,遷移過程中不移動本地資料。聯邦學習特別適用於異構資料(比如影象和文字)的聯邦學習問題。
三、聯邦學習架構
集中式拓撲架構
設計乙個中心計算方,用於收集各方模型引數資訊並經過相應演算法更新後返回各方的任務。需要考慮中心計算方洩露隱私或受到攻擊的問題。
對等網路拓撲架構
不存在中心計算節點,各參與方在聯邦學習框架中地位平等。
四、聯邦學習演算法現狀
橫向聯邦學習,常用於跨裝置端的場景。
縱向聯邦學習,常用於跨機構的場景。
聯邦遷移學習,在保護資料隱私的前提下,強調即使在異構特徵分布的多方場景下,也能協同並提公升模型效能。
聯邦學習 聯邦學習
文章內容主要來自文末網盤內部分資料 最近微眾舉辦了乙個面向高校大學生的ai比賽,題目如下 基於微眾提出的聯邦學習模型,設計一款有應用場景的產品。資料來源之間存在著難以打破的壁壘,一般情況下人工智慧的所需要的資料會涉及多 個領域,例如在基於人工智慧的產品推薦服務中,產品銷售方擁有產品的資料 使用者購買...
聯邦學習基礎概念(一)
1.什麼是聯邦學習?聯邦機器學習 federated machine learning federated learning 又名聯邦學習,聯合學習,聯盟學習。聯邦機器學習是乙個機器學習框架,能有效幫助多個機構在滿足使用者隱私保護 資料安全和 法規的要求下,進行資料使用和機器學習建模。聯邦學習作為分...
聯邦學習學習心得(1) 聯邦學習簡介
國際社會上對資訊保安 個人隱私的問題越來越重視,各種相關的法案相繼頒布,對私人資料的管理 監督 保護更加全面化 嚴格化 密集化。各個公司對各自的資料也越來越重視,作為資產不可能拿出來分享,這就造成了資料孤島的現象。同時與傳統的機器學習 machine learning 和深度學習 deep lear...