弱監督學習總結(1)

2021-08-17 17:43:35 字數 1734 閱讀 5871

在學習過udacity和吳恩達的deeplearning課程之後,我對深度學習又有了新的一些看法。確實,深度學習在語音/影象和自然語言方面相比傳統演算法有長足的進步,很多方面的識別率超過人類水平,於是各路**大肆渲染深度學習演算法的神奇之處,說著說著就將深度學習演算法和人工智慧混為一談,認為再過不久,人類很快就被機器所代替。

其實,這些宣傳是非常不謹慎的,計算機確實在某些領域能有很高的準確率,但相比人類來說,它們在邏輯推理,組合,分析方面的能力是遠遠不夠智慧型的,更不用談它們能創新創造。在我看來,人類巨大的腦容量所連線的海量神經元絕對是自然賜予人類最寶貴的財富,它的複雜程度比世界上運算量最大的計算機還高出好幾個指數級,大腦的學習/思考/分析/創造能力是遠非機器所能比擬的,我覺得只有更深入的了解物質組成的本質,比如量子理論和量子計算的發展,才能讓計算機比擬人類能力,獲得更強大的能力。而目前的深度神經網路只是在結構上借鑑了大腦的神經元結構,但真正具體的神經元工作原理以及如何去實現複雜的分析推理工作連人類自己都不得而知,更談不上讓機械人代替人類做出複雜的決策,讓機械人去學習難以用邏輯推理去定義的情感。

之所以說這些想法,是因為太多人談到深度學習就是人工智慧,其實這個發展過程是十分漫長的。研究人工智慧,這不僅僅是讓人類生活的更輕鬆,而且還能認識到人類的本質,至少是我們對於自身理性邏輯思維方面的深刻認識,但千萬不要太迷信深度學習,也不要將深度學習和人工智慧混為一談

一般常常談到深度學習,就是根據資料特點,選擇合適模型(cnn.rnn)等去訓練模型,讓模型自己尋找資料特徵,構造合適損失函式並優化到最小值,得到的模型引數就是我們需要的結果,這個過程一般稱為(強)監督學習。而這個過程中有乙個問題,在日常生活中會有大量的資料,但給資料都加上標籤(label)成本太高,我們得想辦法既能降低成本,又能得到更準確的模型,這個時候弱監督學習就閃亮登場了。

弱監督學習是相對于強監督學習和無監督學習來說的,當我們得到的資料集之中只有一部分資料有標籤,而另一部分資料沒有標籤,但我們還是想訓練乙個不錯的模型(窮且傲嬌),我們稱其為弱監督學習,利用這非常規的資料集來訓練模型,到底該咋辦呢?

弱監督學習一般可以根據資料型別分為三類:

資料既然不完整,那我們只能想辦法根據這有限的資料來訓練模型了,前人學霸們都做了哪些研究呢?我們來瞧一瞧。

主動學習(active learning)

主動學習的思想,是在人類一定的干預之下提高模型的效果,但設計的特徵方式均需要人類大量的先驗知識,也就是想設計出不錯的模型,你可能得是個「磚家」!

這次先記錄這麼多,其實主動學習屬於傳統的建模學習方法,相比於深度學習可能沒有那麼神奇,但將主動學習的思想加入深度學習之中,可能就能有效的解決實際問題,比如cvpr2017會議中這篇**:很簡單的方法但對於實際問題十分有效,更重要的是作者對於問題清晰和準確的定義和分析,不單單是建立乙個模型和複雜的損失函式,而是對模型訓練中出現的多種情形進行了總結分析,給出了不錯的指導意見,十分有效!

下篇接著講弱監督學習中的半監督學習,這部分涉及方法非常廣泛,也非常有趣。

弱監督學習筆記(一)

對於標籤 真值表 訓練集收集難度大 收集時間長 收集代價高,且對於此緊急的資料,強監督學習可能趕不上它的更新或緊急程度。弱監督通常分為三種型別 不完全監督 不確切監督 不準確監督。指的是訓練資料只有部分是帶有標籤的,同時大量資料是沒有被標註過的。這是最常見的由於標註成本過高而導致無法獲得完全的強監督...

監督學習和無監督學習 監督學習與非監督學習

監督學習 supervised learning 的任務是學習乙個模型,使模型能夠對任意給定的輸入,對其相應的輸出做出乙個好的 即 利用訓練資料集學習乙個模型,再用模型對測試樣本集進行 例如kaggle上的鐵達尼號比賽。官方提供旅客資料 資料集1 姓名,年齡,性別,社會經濟階層,是否生存等 要求參賽...

監督學習,無監督學習和半監督學習

監督學習 supervised learning 無監督學習 unsupervised learning 半監督學習 semi supervised learning 2 概念 監督學習 用一部分已知分類 有標記的樣本來訓練機器後,讓它用學到的特徵,對沒有還分類 無標記的樣本進行分類 貼標籤。一句話...