借用牛頓的話,遷移學習就是站在巨人的肩膀上
傳統機器學習都隱含2個基本假設: 資料有相同的特徵空間,且資料有相同的分布。這在現實場景中往往難以滿足,原因是滿足上述兩種假設的大量資料難以獲取,尤其是帶標註的資料。
順帶一提:傳統機器學習根據訓練資料是否帶標籤可分為:監督學習、無監督學習、(或有:半監督學習, 是個小眾領域,偏向於學術界)。
監督學習需要大量的標註資料,而這部分資料在現實場景中是十分難得的,尤其是在一些特別的業務領域更是成本高昂,難以獲取大量。無監督學習的演算法目前交少,關鍵是當帶標註樣本和不帶標註樣本數量一樣時,監督學習建模效果更好。
而遷移學習的提出最初是建立於用源領域大量的標註資料訓練模型,並將知識模型學習到的知識遷移應用於目標領域,來幫助目標領域在資料量有限的情況下提公升任務效果。學習過程可參考下圖:
近幾年深度學習大火,但由於子領域的資料量受限,任務效能有待進一步提高等因素,依然有必要把傳統機器學習中的遷移學習應用於深度學習領域,因此fine-tune誕生了。
fine-tune是用大量的訓練資料訓練乙個通用的基準模型,再將其應用於自己的子任務中,使用子任務資料集再在已經訓練好的模型的情況下繼續訓練,訓練時通常會先改動模型的輸出,以達到在子任務領域訓練加速和效能提公升。
fine-tune時可以對全模型引數訓練,也可以訓練輸出層引數,也可以凍結模型指定部分,對其餘部分進行訓練。
多工學習無論是在機器學習領域還是在深度學習領域都有較廣闊的實際落地經驗,如無人駕駛訓練、語音識別、文字分類、機器翻譯等都有工業級應用,其過程如下圖:
從傳統機器學習中的遷移學習到深度學習的fine-tune,以及在bert中將遷移學習成功的應用,使得transfer learning已經走上了巔峰,但是依然暴露一些問題亟待解決,
因此後面有出現了zero shot learning(零樣本學習)、小樣本學習、域對抗學習(domain-adversarial training), 有機會再進一步詳細描述。
Apache Sqoop 介紹及資料遷移
sqoop是什麼?sqoop是乙個用於在hadoop和關聯式資料庫之間傳輸資料的工具 將資料從rdbms匯入到hdfs hdfs hive hbase 從hdfs匯出資料到rdbms,使用mapreduce匯入和匯出資料,提供並行操作和容錯 目標使用者 系統管理員 資料庫管理員 大資料分析師 大資料...
遷移學習 自我學習
最近在看ng的深度學習教程,看到self taught learning的時候,對一些概念感到很陌生。作為還清技術債的乙個環節,用半個下午的時間簡單搜了下幾個名詞,以後如果會用到的話再深入去看。監督學習在前一篇部落格中討論過了,這裡主要介紹下遷移學習 自我學習。因為監督學習需要大量訓練樣本為前提,同...
深度學習 遷移學習
遷移學習 把公共的資料集的知識遷移到自己的問題上,即將已經訓練好的模型的一部分知識 網路結構 直接應用到另乙個類似模型中去 小資料集 利用遷移學習,應用其他研究者建立的模型和引數,用少量的資料僅訓練最後自定義的softmax網路。從而能夠在小資料集上達到很好的效果。例如 imagenet 資料集,它...