聯邦學習基礎概念(一)

2022-09-14 16:45:22 字數 1900 閱讀 8536

1.什麼是聯邦學習?

聯邦機器學習(federated machine learning/federated learning),又名聯邦學習,聯合學習,聯盟學習。聯邦機器學習是乙個機器學習框架,能有效幫助多個機構在滿足使用者隱私保護、資料安全和**法規的要求下,進行資料使用和機器學習建模。聯邦學習作為分布式的機器學習正規化,可以有效解決資料孤島問題,讓參與方在不共享資料的基礎上聯合建模,能從技術上打破資料孤島,實現ai協作。谷歌在2023年提出了針對手機終端的聯邦學習,微眾銀行ai團隊則從金融行業實踐出發,關注跨機構跨組織的大資料合作場景,首次提出「聯邦遷移學習」的解決方案,將遷移學習和聯邦學習結合起來。據楊強教授在「聯邦學習研討會」上介紹,聯邦遷移學習讓聯邦學習更加通用化,可以在不同資料結構、不同機構間發揮作用,沒有領域和演算法限制,同時具有模型質量無損、保護隱私、確保資料安全的優勢。

聯邦學習定義了機器學習框架,在此框架下通過設計虛擬模型解決不同資料擁有方在不交換資料的情況下進行協作的問題。虛擬模型是各方將資料聚合在一起的最優模型,各自區域依據模型為本地目標服務。聯邦學習要求此建模結果應當無限接習傳統模式,即將多個資料擁有方的資料匯聚到一處進行建模的結果。在聯邦機制下,各參與者的身份和地位相同,可建立共享資料策略。由於資料不發生轉移,因此不會洩露使用者隱私或影響資料規範。為了保護資料隱私、滿足合法合規的要求。

聯邦學習有三大構成要素:資料來源、聯邦學習系統、使用者。三者間關係如圖所示,在聯邦學習系統下,各個資料來源方進行資料預處理,共同建立及其學習模型,並將輸出結果反饋給使用者

2.聯邦學習的分類:

橫向聯邦學習:適用於兩個資料集的使用者特徵重疊較多而使用者重疊較少的情況下,把資料集按照橫向(即使用者維度)切分(跨行拼接樣本),並取出雙方使用者特徵相同而使用者不完全相同的那部分資料進行訓練。

場景:比如業務相同但是分布在不同地區的兩家企業,它們的使用者群體分別來自各自所在的地區,相互的交集很小。但是,它們的業務很相似,因此,記錄的使用者特徵是相同的。此時,就可以使用橫向聯邦學習來構建聯合模型。

縱向聯邦學習:在兩個資料集的使用者重疊較多而使用者特徵重疊較少的情況下,我們把資料集按照縱向(即特徵維度)切分,並取出雙方使用者相同而使用者特徵不完全相同的那部分資料進行訓練。

這種方法叫做縱向聯邦學習。縱向聯邦學習就是將這些不同特徵在加密的狀態下加以聚合,以增強模型能力的聯邦學習。目前,邏輯回歸模型,樹型結構模型和神經網路模型等眾多機器學習模型已經逐漸被證實能夠建立在這個聯邦體系上

場景:假設這樣乙個場景,**和知乎聯合起來訓練乙個模型,**乙個使用者是否對科技類產品感興趣。**有使用者a、b、c三個人的購買歷史資料,而知乎有b、c、d三個人的知乎文章瀏覽資料。使用縱向聯邦學習,在**和知乎都不洩露各自的使用者資料前提下,我們可以整合b、c兩個人的**和知乎資料特徵,共同訓練乙個**模型,由於使用到了兩類資料進行訓練,理論上來說得到的結果應該比**或者知乎各自訓練出的模型更準確。由於模型訓練需要同時使用**和知乎的資料,我們發現使用者a僅僅有**的資料,沒有知乎的資料,因此使用者a無法做為訓練樣本使用。同樣的,知乎的使用者d也無法參與訓練。因此在縱向聯邦學習之前,雙方需要計算出共有的樣本,也就是b、c兩人,後續的計算都圍繞bc兩人進行。而隱私集合求交就是雙方通過加密計算,得到b、c兩人這個集合,同時不暴露各自的原始集合的方法。

聯邦遷移學習: 在兩個資料集的使用者與使用者特徵重疊都較少的情況下,我們不對資料進行切分,而可以利用遷移學習來克服資料或標籤不足的情況。

場景:比如有兩個不同機構,一家是位於中國的銀行,另一家是位於美國的電商。由於受到地域限制,這兩家機構的使用者群體交集很小。同時,由於機構型別的不同,二者的資料特徵也只有小部分重合。在這種情況下,要想進行有效的聯邦學習,就必須引入遷移學習,來解決單邊資料規模小和標籤樣本少的問題,從而提公升模型的效果。

聯邦學習 聯邦學習

文章內容主要來自文末網盤內部分資料 最近微眾舉辦了乙個面向高校大學生的ai比賽,題目如下 基於微眾提出的聯邦學習模型,設計一款有應用場景的產品。資料來源之間存在著難以打破的壁壘,一般情況下人工智慧的所需要的資料會涉及多 個領域,例如在基於人工智慧的產品推薦服務中,產品銷售方擁有產品的資料 使用者購買...

(一)聯邦學習概述

一 聯邦學習定義 聯邦學習是利用分散在各個參與協作方的資料集,通過隱私保護技術融合多方資料資訊,協同構建全域性模型的一種分布式訓練方式。模型的相關資訊 模型引數,結構,引數梯度等 能夠在各參與方之間 可以明文 加密 新增雜訊等 交換,但是本地訓練資料集不會移動。即資料不動模型動,資料可用不可見。設當...

機器學習 基礎概念 一

lstm rnn長短期記憶rnn 自編碼autoencoder 生成對抗網路gan 梯度下降 gradient descent 人體900億神經細胞組 體神經網路。神經網路的構建 可稱之人工神經元的組合,在外部刺激上不斷改變自身。人工神經網路可以分為輸入層,隱藏層 資訊的加工處理層 輸出層。中間的 ...