監督學習:機器學習中最常見的方法是監督學習。在監督學習中,我們得到一組標記資料(x,y),即(特徵,標籤),我們的任務是學習它們之間的關係。但是這種方法並不總是易於處理,因為-
訓練通常需要大量資料,而標記數百萬行資料既耗時又昂貴,這就對許多不同任務的訓練模型造成了瓶頸。
以這種方式訓練的模型通常非常擅長手頭的任務,但不能很好地推廣到相關但是非相同領域內的任務。因為網路只專注於學習 x 的良好表示以生成之間的直接對映x 和 y ,而不是學習 x 的良好通用表示,所以無法轉移到類似的其他任務。
這種學習通常會導致對概念的非常膚淺的理解,即它學習了 x 和 y 之間的關係(它優化了網路以學習這種對映),但它不理解 x 的實際含義或它背後的含義。
自監督學習 (self-supervised learning / ssl):自監督學習也適用於(特徵、標籤)資料集,即以監督的方式,但它不需要人工注釋的資料集。它的基本思想是遮蔽/隱藏輸入的某些部分,並使用可觀察的部分來**隱藏的部分。正如我們將在下面看到的,這是乙個非常強大的想法。但是我們不稱其為無監督學習是因為它仍然需要標籤,但不需要人工對其進行標註。
ssl的優勢是如果我們手頭有大量未標記的資料,ssl的方式可以讓我們利用這些資料。這樣模型可以學習更強大的資料底層結構的表示,並且這些表示比監督學習中學到的更普遍,然後我們可以針對下游任務進行微調。
在過去的 10 年裡,深度學習取得了長足的進步。幾年前被認為計算機似乎不可能完成的任務(例如機器翻譯、影象識別、分割、語音識別等)中,已經達到/超過了人類水平的表現。在經歷了十年的成功故事之後,深度學習現在正處於乙個關鍵點,人們已經慢慢但肯定地開始認識到當前深度學習方法的基本侷限性。
人類和當前人工智慧的主要區別之一是人類可以比機器更快地學習事物,例如僅通過檢視 1-2 張**來識別動物,只需 15-20 小時即可學會駕駛汽車。人類如何做到這一點?常識!雖然我們還不知道常識是如何產生的,但卻可以通過思考人類如何實際了解世界來做出一些有根據的猜測:
自監督學習通過學習從未遮蔽部分**資料的遮蔽部分來模仿的人類這部分的能力。
完整文章:
自監督學習 對比學習自監督
關於bert的無監督聚類的一些說法 1.首先一點是在不finetune的情況下,cosine similairty絕對值沒有實際意義,bert pretrain計算的cosine similairty都是很大的,如果你直接以cosine similariy 0.5之類的閾值來判斷相似不相似那肯定效果...
自監督學習之SimCLR總結
本文提出了simclr 乙個生成視覺表達 representation 的簡單對抗學習框架。我們簡化了近些年提出的對抗學習的框架,我們的演算法不需要特殊的結構和龐大的儲存體 memory bank 為了理解到底什麼使得這種對抗學習能夠學得有用3的表達,我們系統的研究了我們框架中的基本的元件 1.資料...
監督學習入門知識
2個概念 在具體的建模分析中 標籤指我們重點觀測和 的變數 特徵是指影響標籤的一些因素.3種機器學習方式 監督學習 看樣本資料是否同時具有特徵和標籤 無監督學習 樣本資料中只有特徵,沒有標籤,演算法自己去挖掘特徵之間的規律。強化學習 沒有特徵也沒有標籤,只給定行為規則,通過學習到對環境的反應。比如機...