國際社會上對資訊保安、個人隱私的問題越來越重視,各種相關的法案相繼頒布,對私人資料的管理、監督、保護更加全面化、嚴格化、密集化。各個公司對各自的資料也越來越重視,作為資產不可能拿出來分享,這就造成了資料孤島的現象。同時與傳統的機器學習(machine learning)和深度學習(deep learning)方法相矛盾的是,傳統的方法需要集合大量的資料才能訓練出足夠準確的模型。怎麼樣在保證自己的資料不被洩露的條件下,訓練出滿意的模型呢?聯邦學習(federated learning)就此而來。
聯邦學習(federated learning),我更喜歡形象的稱之為聯合學習,顧名思義,就是聯合不同終端、不同公司、不同商家的資料,共同訓練模型。當然這裡的聯合並非指的是將所有的資料放在一起,而是各個資料分開訓練各自的模型,將資訊(比如梯度)傳送中間的協調者(arbiter),協調者再處理、分發更新後的梯度等資訊,從而完成各自模型的更新,反覆迭代這一過程,直至損失函式小於預定值才結束。其中為保證過程資料不會洩露,運用了一些加密技術。
一句話來總結:資料不動模型動。
根據聯合資料的特點,可以將聯邦學習分為三類:橫向聯邦學習(horizontal learning,homogeneous learning)、縱向聯邦學習(vertical learning,heterogeneous)、聯邦遷移學習(federated transfer learning)。
針對資料,我們可以從兩個角度去了解,分別是質和量,對應著縱向和橫向維度。如果我們需要擴充套件資料,從以上兩個維度出發,對於質(縱向),可以擴充套件更多的特徵,刻畫更為準確地人物畫像,這也就是縱向聯邦學習,聯合的資料擁有相同的使用者id,不同的特徵。另外一種擴充套件資料的方法就是從量的角度出發,聯合的資料擁有相同的特徵維度,不同的使用者id,即橫向聯邦學習。
除此之外,在聯合的資料集擁有相同的特徵維度和使用者id都較少的情況下,可以利用遷移學習來克服資料或標籤不足的情況。這種方法叫做聯邦遷移學習。
資料隔離,私有資料不會洩露。
無損,和傳統的機器學習方法將資料集合在一起訓練出來的模型精度幾乎相同。
對等,參與者地位相同。
共同獲益,所有參與者都能得到最終的訓練模型。
聯邦學習**
webank聯邦學習課程
全球第乙個工業級開源框架fate
聯邦學習學習心得(3) 聯邦學習FATE框架入門
首先我們從github上轉殖fate倉庫。最近新學會的乙個方法,大大提公升轉殖的速度,親測有效。安裝過程請參考倉庫中的readme文件,本人是在linux16.04上按照native中的單機部署,通過docker compose進行部署的,推薦大家也按照這種方式。os推薦linux16.04,或者c...
聯邦學習簡介
對聯邦學習做個簡單的記錄 聯邦學習定義 定義n個資料所有者,他們所有人都希望通過合併各自的資料來訓練機器學習模型。一種常規方法是將所有資料放在一起,並使用d d1 u d2 u dn來訓練模型msum。聯邦學習是一種學習過程,其中資料所有者共同訓練乙個模型mfed,在該過程中,任何資料所有者fi都不...
聯邦學習 聯邦學習
文章內容主要來自文末網盤內部分資料 最近微眾舉辦了乙個面向高校大學生的ai比賽,題目如下 基於微眾提出的聯邦學習模型,設計一款有應用場景的產品。資料來源之間存在著難以打破的壁壘,一般情況下人工智慧的所需要的資料會涉及多 個領域,例如在基於人工智慧的產品推薦服務中,產品銷售方擁有產品的資料 使用者購買...