深度學習常用基本知識整理

2022-04-22 15:09:10 字數 1369 閱讀 3456

從代數角度講,張量可以看作是向量的推廣。標量可以看作是0階張量,向量可以看作1階張量,矩陣可以看作2階張量,n階張量可以看成乙個n維陣列。

reference:

設\(k\)為斜率,\(dy\)為縱座標的增量,\(dx\)是橫座標的增量,那麼簡單地講,導數就是斜率\(k=\frac\),微分就是是增量\(dy=kdx\)。

偏導數主要是研究多元函式的導數。比方說,一元函式乙個\(y\)對應 乙個\(x\),只有乙個導數,二元函式乙個\(z\)對應乙個\(x\)和乙個\(y\),則有兩個導數,乙個是\(z\)對\(x\)的導數,乙個是\(z\)對\(y\)的導數,稱之為偏導數。

資訊熵的公式為

\[h(x)=-\sum_p(x)log(p(x))

\]我們用\(log(1/p(x))\)來衡量事情發生的不確定性的大小,其中\(p(x)\)是事件\(x\)發生的概率,\(p(x)\)越大,不確定性越小。資訊熵的公式其實是\(log(1/p(x))\)的期望(對於每乙個\(x\),計算\(log(1/p(x))=-log(p(x))\),然後再乘以\(x\)發生的概率\(p(x)\),將所有\(x\)的計算結果加起來,即為\(log(1/p(x))\)的期望),資訊熵越大,不確定性越大,資訊熵越小,不確定性越小。注意其中有個假設,就是服從\(x\)分布的\(x\)是相互獨立的。\(log\)的底一般只要大於1即可,一般預設為2,因為資訊理論中二進位製用的比較多。

假設乙個資料集有兩個概率分布\(p\)和\(q\),其中\(p\)是真實概率分布,\(q\)是非真實概率分布。根據香濃資訊量的定義,基於真實概率分布\(p\)的資訊量為\(log(1/p)\),平均編碼長度為:\(h(p)=\sum plog(1/p)=-\sum plog(p)\),也就是資訊熵。基於非真實概率分布\(q\)的資訊量為\(log(1/q(x))\),用非真實概率分布\(q\)表示來自真實分布\(p\)的樣本的平均編碼長度為:\(h(p,q)=\sum plog(1/q)=-\sum plog(q)\),\(h(p,q)\)即為交叉熵。設在機器學習中使用sigmoid函式作為啟用函式,那麼在求梯度下降時,若使用均方誤差作為損失函式,則其學習速率會不斷下降,而使用交叉熵作為損失函式則可以避免這個問題,因為其學習速率由兩種概率分布之間的差別控制。

一般來說,交叉熵\(h(p,q)\geq\)資訊熵\(h(p)\)(當\(p=q\)時等號成立)。相對熵是交叉熵和資訊熵的差,即\(d(p||q)=h(p,q)-h(p)\)。因為基於真實分布\(p\)的資訊熵\(h(p)\)一般是確定的,所以相對熵\(d(p||q)\)可以由交叉熵\(h(p,q)\)確定,故一般來說,相對熵也可以叫做交叉熵。相對熵一般又叫kl散度(kullback-leibler divergence)。相對熵用來衡量兩種函式或概率分布的相似性。相對熵越小,兩種函式或概率分布越相似;相對熵越大,兩種函式或概率分布差別越大。

張量

C 基本知識整理

1.全域性靜態變數 記憶體中位置 靜態儲存區,且程式執行期間一直存在。未經初始化的全域性靜態變數自動初始化為0。全域性靜態變數在宣告檔案之外是不可見的。2.區域性靜態變數 記憶體中位置 靜態儲存區。未初始化自動初始化為0。作用域為區域性作用域,但離開作用域後不會銷毀,仍然駐留在記憶體中,再次訪問時值...

C 基本知識整理(1)

在c 程式設計中using namespace std 這條語句很常見,其中,namespace就是命名空間,而using是宣告,std是命名空間名。命名空間就是為了解決c 中函式變數的命名衝突所採取的一種措施,能夠解決多模組協同開發出現變數函式命名的衝突問題。1 using宣告及作用域 using...

javascript基本知識整理三

全域性變數 定義在外邊的變數 若沒有用var宣告,則當這行賦值執行,則就將他認為是全域性變數。區域性變數 在函式內部裡宣告的變數,只能在該函式裡有效。bom物件 window物件的方法 prompt alert confirm close open settimeout setinterval cl...