注:非原創,用於自我學習
神經網路已經出現很多年,為什麼最近廣泛應用起來
大資料計算機能力的增強
dl分類
普通dl
(全連線)
1-d序列模型(
rnn,
lstm
,gpu
)影象模型,
2-d,
3-d,
cnn其它類別:無監督學習,增強學習。
趨勢
端到端學習
端到端學習並不能解決所有事情。
拿語音識別舉例:
傳統方法:
audio -> phonemes -> transcript
端到端:
audio -> transcript
如果想讓端到端學習工作的話,需要大量的標籤資料。
(x,y)
另乙個例子:通過手的x-ray影象判斷小孩的年齡
傳統方法:
x-ray image -> bones lengths -> age
端到端:
image -> age
應用端到端方法,碰到的問題是,沒有足夠的訓練資料去訓練乙個好的網路。
dlx-ray image -> bones lengths
這個過程。
?多少資料才夠,資料不夠的話,小心使用端到端學習
碰到問題時,應該怎麼解決。(bias/variance)
goal:人類水平的語音識別系統 定義
bias
和variance:(
偏差和方差
)bias
: 訓練集錯誤率
人類水平錯誤率
variance
: dev-set
錯誤率
train-set
錯誤率
human error
train-set error
dev-set error
test-set error
問題1%
5% 6%
high bias 1%
2% 6%
high variance 1%
5%10%
high bias, high variable
基本workflow:
和more data
總是會得到好結果。
建議:unified data warehouse
問題:當前,用於訓練的資料分布,和測試集資料分布很有可能屬於不同分布
假設50000h
的語音資料(但不是來自測試分布的資料),和
10h的語音資料(來自於測試分布)。如何組織你的
train, dev, test set
?第一種方案:
將50000h
分為train, dev set
,10h
作為測試資料(
bad idea
)第二種方案:
50000h
作為train set
,10h
分為dev
,test set
。(dev
和test
set應該服從同一分布)
第三種方案:
50000h
分為train-set
,train-dev-set
,10h
分為dev-set
,test-set。
重新定義
bias
variance
:bias
: 訓練集錯誤率
人類水平錯誤率
variance
: train-dev-set
錯誤率
train-set
錯誤率train-test mismatch
:train-dev-set
dev-set
overfitting of dev
: dev-set
test-set
human-level
train-set
train-dev-set
dev-set
test-set
問題1%
10%
10.1%
10.1%
10.2%
high bias 1%
2%2.1%
10%train-test mismatch
基本workflow:
提高模型準確率
如何定義
human level error
:專家團錯誤率。
al/dl可以幹什麼?
1) 人類在一秒中可以幹的事情,深度學習可以做(給資料打標籤)。
2) **序列時間的下乙個輸出。
3) 人工智慧應該幹人類無法幹的事(馬雲)
如何學習機器學習
dirty work
深度學習 Deep Learning簡介 (一)
從一到八 1 機器學習 在解釋深度學習之前,我們需要了解什麼是機器學習 ml,machine learning 機器學習是人工智慧 ai,artificial intelligence 的乙個分支,而在很多時候,幾乎成為人工智慧的代名詞。簡單來說,機器學習就是通過演算法,使得機器能從大量歷史資料中學...
深度學習簡介
一 概念 1.是機器學習研究中的乙個新的領域,其動機在於建立,模擬人腦進行分析學習的神經網路,它模擬人腦的機制進行解釋資料,學習方法也分為監督學習和非監督學習兩種方式。2.深度學習成功的條件 大資料 大規模計算能力 複雜模型 高效演算法 二 適於解決的問題的特徵 1.深度不足會出現問題 2.人腦具有...
深度學習簡介
一 人工智慧 機器學習與深度學習 1.定義 2.傳統機器學習和深度學習流程對比 3.人工智慧 機器學習以及深度學習之間的關係 二 深度學習的應用 1.計算機視覺 影象識別 2.語音識別 3.自然語言處理 nlp 4.人機博弈 三 深度學習工具介紹和對比 一 人工智慧 機器學習與深度學習 1.定義 業...