(文章內容主要來自文末網盤內部分資料)
最近微眾舉辦了乙個面向高校大學生的ai比賽,題目如下
基於微眾提出的聯邦學習模型,設計一款有應用場景的產品。
資料來源之間存在著難以打破的壁壘,一般情況下人工智慧的所需要的資料會涉及多 個領域,例如在基於人工智慧的產品推薦服務中,產品銷售方擁有產品的資料、使用者購買商品的資料,但是沒有使用者購買能力和支付習慣的資料。在大多數行業中,資料是以孤島的形 式存在的,由於行業競爭、隱私安全、行政手續複雜等問題,即使是在同乙個公司的不同部 門之間實現資料整合也面臨著重重阻力,在現實中想要將分散在各地、各個機構的資料進行 整合幾乎是不可能的,或者說所需的成本是巨大的。
另一方面,隨著大資料的進一步發展,重視資料隱私和安全已經成為了世界性的趨勢。 每一次公眾資料的洩露都會引起**和公眾的極大關注,例如最近 facebook 的資料洩露事 件就引起了大範圍的**行動。同時各國都在加強對資料安全和隱私的保護,歐盟最近引入 的新法案《通用資料保護條例》(general data protection regulation, gdpr)[11]表明, 對使用者資料隱私和安全管理的日趨嚴格將是世界趨勢。這給人工智慧領域帶來了前所未有的 挑戰,研究界和企業界目前的情況是收集資料的一方通常不是使用資料的一方,如 a 方收集 資料,轉移到 b 方清洗,再轉移到 c 方建模,最後將模型賣給 d 方使用。這種資料在實體間 轉移,交換和交易的形式違反了 gdpr,並可能遭到法案嚴厲的懲罰。同樣,中國在 2017 年 起實施的《中華人民共和國網路安全法》 [12]和《中華人民共和國民法總則》 [13]中也指出網路 運營者不得洩露、篡改、毀壞其收集的個人資訊,並且與第三方進行資料交易時需確保擬定 的合同明確約定擬交易資料的範圍和資料保護義務。這些法規的建立在不同程度上對人工智 能傳統的資料處理模式提出了新的挑戰。在這個問題上,人工智慧的學界和企業界,目前並 無較好的解決方案來應對這些挑戰。
要解決大資料的困境,僅僅靠傳統的方法已經出現瓶頸。 兩個公司簡單的交換資料在 很多法規包括 gdpr 是不允許的。使用者是原始資料的擁有者,在使用者沒有批准的情況下,公 司間是不能交換資料的。 其次,資料建模使用的目的,在使用者認可前也不可以改變。所以, 過去的許多資料交換的嘗試,例如資料交易所,也需要巨大的改變才能合規。 同時,商業 公司所擁有的資料往往都有巨大的潛在價值。兩個公司甚至公司間的部門都要考慮利益的交 換,在這個前提下,往往這些部門不會把資料與其他部門做簡單的聚合。導致即使在同乙個 公司內,資料也往往以孤島形式出現。
如何在滿足資料隱私、安全和監管要求的前提下,設計乙個機器學習框架,讓人工智慧 系統能夠更加高效、準確的共同使用各自的資料,是當前人工智慧發展的乙個重要課題。我 們倡議把研究的重點轉移到如何解決資料孤島的問題。我們提出乙個滿足隱私保護和資料安 全的乙個可行的解決方案,叫做聯邦學習。
上述對聯邦學習的定義並沒有討論如何具體地設計一種聯邦學習的實施方案。在實際中, 孤島資料具有不同分布特點,根據這些特點,我們可以提出相對應的聯邦學習方案。下面, 我們將以孤島資料的分布特點為依據對聯邦學習進行分類。 考慮有多個資料擁有方,每個資料擁有方各自所持有的資料集 d_i 可以用乙個矩陣來表示。 矩陣的每一行代表乙個使用者,每一列代表一種使用者特徵。同時,某些資料集可能還包含標籤 資料。如果要對使用者行為建立**模型,就必須要有標籤資料。我們可以把使用者特徵叫做 x, 把標籤特徵叫做 y。比如,在金融領域,使用者的信用是需要被**的標籤 y;在營銷領域, 標籤是使用者的購買願望 y;在教育領域,則是學生掌握知識的程度等。使用者特徵 x 加標籤 y 構成了完整的訓練資料(x, y)。但是,在現實中,往往會遇到這樣的情況:各個資料集的 使用者不完全相同,或使用者特徵不完全相同。具體而言,以包含兩個資料擁有方的聯邦學習為 例,資料分布可以分為以下三種情況:
在討論了聯邦學習的定義與分類之後,我們以縱向聯邦學習為例深入介紹一下聯邦學習 系統的構架,從而理解其工作的流程與細節。 我們以包含兩個資料擁有方(即企業 a 和 b)的場景為例來介紹聯邦學習的系統構架, 該構架可擴充套件至包含多個資料擁有方的場景。假設企業 a 和 b 想聯合訓練乙個機器學習模 型,它們的業務系統分別擁有各自使用者的相關資料。此外,企業 b 還擁有模型需要**的標 籤資料。出於資料隱私和安全考慮,a 和 b 無法直接進行資料交換。此時,可使用聯邦學習 系統建立模型,系統構架由兩部分構成,如圖 2a 所示。
迭代上述步驟直至損失函式收斂,這樣就完成了整個訓練過程。在樣本對齊及模型訓練 過程中,a 和 b 各自的資料均保留在本地,且訓練中的資料互動也不會導致資料隱私洩露。 因此,雙方在聯邦學習的幫助下得以實現合作訓練模型。
聯邦學習系統
【解決問題】基於縱向聯邦學習的小微企業信貸產品違約**模型
【資料】銀行的信用評級和收支行為等特徵以及稅務局的個人營業所得稅和年度交款等特徵
【模型演算法】logistic & lgbm
研習社資料(qq群:102755159)(乾貨、資料、專案、**、報告、課件)
相互學習,共同成長。
聯邦學習學習心得(1) 聯邦學習簡介
國際社會上對資訊保安 個人隱私的問題越來越重視,各種相關的法案相繼頒布,對私人資料的管理 監督 保護更加全面化 嚴格化 密集化。各個公司對各自的資料也越來越重視,作為資產不可能拿出來分享,這就造成了資料孤島的現象。同時與傳統的機器學習 machine learning 和深度學習 deep lear...
聯邦學習簡介
對聯邦學習做個簡單的記錄 聯邦學習定義 定義n個資料所有者,他們所有人都希望通過合併各自的資料來訓練機器學習模型。一種常規方法是將所有資料放在一起,並使用d d1 u d2 u dn來訓練模型msum。聯邦學習是一種學習過程,其中資料所有者共同訓練乙個模型mfed,在該過程中,任何資料所有者fi都不...
聯邦學習綜述
在聯邦學習 1 中給出了明確的聯邦學習的定義 綜上,聯邦學習的目的是 使多個參與方在保護資料隱私 滿足合法合規要求的前提下繼續進行機器學習,解決資料孤島問題。在實際中,孤島資料具有不同的分布特點,根據這些特點,可以提出相應的聯邦學習方案。以孤島資料的分布特點為依據可將聯邦學習分為三類 橫向聯邦學習 ...