谷歌提出新型半監督方法 MixMatch

2021-09-24 03:01:42 字數 2949 閱讀 6384

缺少資料怎麼辦

近期大型深度神經網路取得的成功很大程度上歸功於大型標註資料集的存在。然而,對於許多學習任務來說,收集標註資料成本很高,因為它必然涉及專家知識。醫學領域就是乙個很好的例子,在醫學任務中,測量資料出自昂貴的機器,標籤則來自於多位人類專家耗時耗力的分析。此外,資料標籤可能包含一些隱私類的敏感資訊。相比之下,在許多任務中,獲取無標註資料要容易得多,成本也低得多。

半監督學習 (ssl) 旨在通過在模型中使用無標註資料,來大大減輕對標註資料的需求。近期許多半監督學習方法都增加了乙個損失項,該損失項基於無標註資料計算,以促進模型更好地泛化到未知資料。在最近的工作中,該損失項一般分為三類:熵最小化 [17, 28]——促使模型輸出對無標註資料的可信**;一致性正則化(consistency regularization)——促使模型在其輸入受到擾動時產生相同的輸出分布;通用正則化(generic regularization)——促使模型很好地泛化,並避免出現對訓練資料的過擬合。

谷歌的解決方案

谷歌的這項研究中介紹了一種新型半監督學習演算法 mixmatch。該演算法引入了單個損失項,很好地將上述主流方法統一到半監督學習中。與以前的方法不同,mixmatch 同時針對所有屬性,從而帶來以下優勢:

簡而言之,mixmatch 為無標註資料引入了乙個統一的損失項,它在很好地減少了熵的同時也能夠保持一致性,以及保持與傳統正則化技術的相容。

圖 1:mixmatch 中使用的標籤估計過程圖。對無標註影象使用 k 次隨機資料增強,並將每張增強影象饋送到分類器中。然後,通過調整分布的溫度來「銳化」這 k 次**的平均值。完整說明參見演算法 1。

mixmatch

半監督學習方法 mixmatch 是一種「整體」方法,它結合了半監督學習主流正規化的思想和元件。給定一組標註例項 x 及其對應的 one-hot 目標(代表 l 個可能標籤中的乙個)和一組同樣大小的無標註例項 u,mixmatch 可以生成一組增強標註例項 x' 和一組帶有「估計」標籤的增強無標註例項 u'。然後分別使用 u' 和 x' 計算無標註損失和標註損失。下式即為半監督學習的組合損失 l:

其中 h(p, q) 是分布 p 和 q 之間的交叉熵,t、k、α 和 λ_u 是下面演算法 1 中的超引數。下圖展示了完整的 mixmatch 演算法和圖 1 中展示的標籤估計過程。

實驗

為了測試 mixmatch 的有效性,研究者在半監督學習基準上測試其效能,並執行模型簡化測試,梳理 mixmatch 各個元件的作用。

研究者首先評估了 mixmatch 在四個基準資料集上的效能,分別是 cifar-10、cifar-100、svhn 和 stl-10。其中前三個資料集是監督學習常用的影象分類基準;利用這些資料集評估半監督學習的標準方法是將資料集中的大部分資料視為無標註的,將一小部分(例如幾百或數千個標籤)作為標註資料。stl-10 是專為半監督學習設計的資料集,包含 5000 個標註影象和 100,000 個無標註影象,無標註影象的分布與標註資料略有不同。

對於 cifar-10,研究者使用 250 到 4000 個不同數量的標註樣本來評估每種方法的準確率(標準做法)。結果如圖 2 所示。

圖 2:對於不同數量的標籤,mixmatch 與基線方法在 cifar-10 上的錯誤率對比。「supervised」表示所有 50000 個訓練樣本都是標註資料。當使用 250 個標註資料時,mixmatch 的錯誤率與使用 4000 個標籤的次優方法效能相當。

研究者還在具備 10000 個標籤的 cifar-100 資料集上評估了基於較大模型的 mixmatch,並與 [2] 的結果進行了對比。結果如表 1 所示。

表 1:使用較大模型(2600 萬個引數)在 cifar-10 和 cifar-100 資料集上的錯誤率對比。

作為標準方法,研究者首先考慮將有 73257 個例項的訓練集分割為標註資料和無標註資料的情況。結果如圖 3 所示。

圖 3:使用不同數量的標籤時,mixmatch 與基線方法在 svhn 資料集上的錯誤率比較。「supervised」指所有 73257 個訓練例項均為標註資料。在使用 250 個標註樣本時,mixmatch 就幾乎達到了 supervised 模型的監督訓練準確率。

表 2:mixmatch 與其他方法在 stl-10 資料集上的錯誤率對比,分為全為標註資料(5000 個)與只使用 1000 個標註資料(其餘為無標註資料)兩種實驗設定。

由於 mixmatch 結合了多種半監督學習機制,它與文獻中已有的方法有很多相似之處。因此,研究者通過增刪模型元件研究各個元件對模型效能的影響,以便更好地了解哪些元件為 mixmatch 提供更多貢獻。

表 4:模型簡化測試結果。mixmatch 及其各種「變體」在 cifar-10 資料集上的錯誤率對比,分為 250 個標註資料和 4000 個標註資料兩種情況。ict 使用 ema 引數和無標註 mixup,無銳化。

提出新型產業理念 紅旗Linux劍指自主資訊保安

日前,紅旗linux在京舉行了 築夢未來,重塑企業it環境 asianux7發布會,本次會議以紅旗發布 linux 產品戰略為主題,與合作夥伴 行業使用者一起 如何通過開源解決方案重塑企業it環境,實現關鍵業務創新。會上紅旗提出了 linux 的新型產業理念,並表示將致力於高階為 linux 的開源...

Google提出的新型啟用函式 Swish

swish是google在10月16號提出的一種新型啟用函式,其原始公式為 f x x sigmod x 變形swish b啟用函式的公式則為f x x sigmod b x 其擁有不飽和,光滑,非單調性的特徵,而google在 中的多項測試表明swish以及swish b啟用函式的效能即佳,在不同...

Google提出的新型啟用函式 Swish

swish是google在10月16號提出的一種新型啟用函式,其原始公式為 f x x sigmod x 變形swish b啟用函式的公式則為f x x sigmod b x 其擁有不飽和,光滑,非單調性的特徵,而google在 中的多項測試表明swish以及swish b啟用函式的效能即佳,在不同...