不少常見的數學符號,我經常不認識,看**的時候,每次小丑都是我自己…
所以先把這些花裡胡哨的公式列出來,方便查詢。
argmax(f(x))是使得 f(x)取得最大值所對應的變數點x(或x的集合),這個定義也太容易理解了吧…
對於q-learning系列,argmaxa
(q(s
,a))
argmax_a(q(s, a))
argmax
a(q
(s,a
))是指使得q值最大的那個動作a,整體表示式輸出的是動作a。
maxaq(s
,a
)max_q(s, a)
maxaq
(s,a
)是指對於q(s, a)這個函式輸出的最大值。
對於q-learning系列,這個q(s, a)的輸出本身意味著動作的選擇,所以max下面會有a的下標,但表示式整體仍然是指最大的q值。期望和求和以及求積分的關係。
左邊期望的意思是指,對於f(s)函式求平均,而其中的變數s,服從p(s)的分布。
如果變數s為離散變數,即對f(s)的期望,等價於對每個s求乙個平均。
如果變數s為連續變數,即對f(s)的期望,等價於,沿著s的概率密度函式的求積分。
這段描述如果有問題的話,歡迎批評指正,我目前的理解是這樣的。
筆記 前端需要了解的常見資料結構 棧
棧是乙個線性結構,在計算機中是乙個相當常見的資料結構。棧的特點是只能在某一端新增或刪除資料,遵循先進後出的原則。每種資料結構都可以用很多種方式來實現,其實可以把棧看成是陣列的乙個子集,所以這裡使用陣列來實現。class stack push item pop peek getcount isempt...
筆記 前端需要了解的常見資料結構 佇列
佇列是乙個線性結構,特點是在某一端新增資料,在另一端刪除資料,遵循先進先出的原則。這裡會講解兩種實現佇列的方式,分別是單鏈佇列和迴圈佇列。class queue enqueue item dequeue getheader getlength isempty 因為單鏈佇列在出隊操作的時候需要 o n...
C 複習筆記 常見資料型別占用的位元組數
所佔位元組數即為sizeof 函式的輸出值。型別16位編譯器 32位編譯器 64位編譯器 備註void00 0bool11 1char11 1short22 2int24 4long44 8float44 4double88 8enum24 4enum的變數其實質是整型指標2 48指標存的是位址,所...