深入淺出Pytorch 深度學習概覽

2021-10-07 19:37:58 字數 3294 閱讀 1485

文字:

分詞: 連續文字根據標點空格分成單詞列表。

停詞: 去掉出現頻率大,沒有啥意義的單詞,比如吧,哦,了,it, of ,the …

正則化:文字統一化,英文–>中文

詞嵌入:n個單詞,每個單詞對應m長的向量:n×m

n \times m

n×m矩陣。經驗:m 約等於n的四次方根的1到10倍,然後轉化成最近的2次冪。

條件概率分布,也就是給定x資料集,得到你認為他們的標籤們的概率分布。

聯合概率分布,就是說 我得到的是資料集和標籤粘連在一起,都可以看做屬性的情況下的概率分布。

p (x

,y)=

∫p(y

∣x)p

(x,y

)d

xp(\bold x,\bold y) = \int p(\bold y|\bold x) p\bold (\bold x,\bold y)\mathrm\bold x

p(x,y)

=∫p(

y∣x)

p(x,

y)dx

生成式模型: 聯合概率分布

判別式模型: 條件概率分布

必備常識

可以得到的資訊多—> 熵就低。 因為,可以得到資訊,那麼就越有一定的規則,有序,即熵低。反之,無序,無新資訊可獲取,熵高。比如,分子運動高度無序,熵高。 一切事物趨於無序,趨於熵增。

概率密度分布相對集中, 即(可提供給我們的資訊)多, 資訊熵就小。 因為,如果概率密度集中,等同於我們知道乙個點概率,我們就可以知道別的點很可能也出現。

一些定義和證明

h (x

)=−∫

p(x)

log⁡p(

x)dx

h(\bold x) = - \int \bold p(\bold x)\log\bold p(\bold x)\mathrm\bold x

h(x)=−

∫p(x

)logp(

x)dx

h (x

,y)=

−∫p(

x,y)

log⁡p(

x,y)

dxdy

h(\bold x,\bold y) = - \int \bold p(\bold x,\bold y)\log\bold p(\bold x,\bold y)\mathrm\bold x \mathrm\bold y

h(x,y)

=−∫p

(x,y

)logp(

x,y)

dxdy

h (y

∣x)=

−∫p(

x,y)

log⁡p(

y∣x)

dx

h(\bold y|\bold x) = - \int \bold p(\bold x,\bold y)\log\bold p(\bold y|\bold x)\mathrm\bold x

h(y∣x)

=−∫p

(x,y

)logp(

y∣x)

dx因此,h(y

∣x)=

h(x,

y)−h

(x

)h(\bold y|\bold x) =h(\bold x,\bold y) - h(\bold x)

h(y∣x)

=h(x

,y)−

h(x)

可以看到條件熵更低,能獲得的資訊更多。對我們更有益。

機器學習中可以考慮: 0.7, 0.2, 0.1

深度學習中可以考慮: 0.9 0.05, 0.05

正則化(l1—> 拉普拉斯先驗分布 |l2–>高斯先驗分布)

early stopping早停法

dropout 神經元

總之從 1.資料集本身,2.正則,3.換模型複雜度上入手。

啟用函式就是為了引入非線性!

三種常用

σ ′=

σ(x)

(1−σ

(x))

\sigma' = \sigma(x)(1-\sigma(x))

σ′=σ(x

)(1−

σ(x))ta

nh′(

x)=1

−tan

h2(x

)tanh'(x) = 1 - tanh^2(x)

tanh′(

x)=1

−tan

h2(x

)relu 取值(0,+inf) 導數 :(0, 1)

sigmoid 取值(0,1) 導數(0, 0.25)

tanh 取值(-1,1) 導數(0, 1)

回歸任務: 線性輸出任何值, 損失函式為mse

分類任務: 線性輸出後,加入非線性比如softmax層,再輸出結果標籤。 損失函式是cross entropy損失函式

softmax:

輸入指數函式後,指數歸一化,就是對應的概率了。

p i=

exi∑

k=1n

ex

kp_i = \frac}^e^}

pi​=∑k

=1n​

exk​

exi​

​思考:

如果有個exk

e^ex

k​很大,大到超出了浮點數範圍,

因此一般會這樣:

p i=

exi−

xmax

∑k=1

nexk

−xma

xp_i = \frac}}^e^}}

pi​=∑k

=1n​

exk​

−xma

x​ex

i​−x

max​​xm

ax=m

ax(x

1,x2

,...

,xn)

x_ = max(x_1, x_2, ..., x_n)

xmax​=

max(

x1​,

x2​,

...,

xn​)

思考:softmax只有兩類的時候就是sigmoid

深入淺出sizeof

int佔 位元組,short佔 位元組 1.0 回答下列問題 答案在文章末尾 1.sizeof char 2.sizeof a 3.sizeof a 4.strlen a 如果你答對了全部四道題,那麼你可以不用細看下面關於sizeof的論述。如果你答錯了部分題目,那麼就跟著我來一起 關於sizeof...

深入淺出ShellExecute

ipconfig c log.txt應如何處理?二樓的朋友,開啟拔號網路這樣 shellexecute null,open c windows rundll32.exe shell32.dll,control rundll c windows system telephon.cpl null,sw ...

深入淺出ShellExecute

深入淺出shellexecute譯者 徐景周 原作 nishant s q 如何開啟乙個應用程式?shellexecute this m hwnd,open calc.exe sw show 或shellexecute this m hwnd,open notepad.exe c mylog.log...