step 2: goodness of function
\(w^*,b^*=arg\ max_\ l(w,b)=arg\ min_-lnl(w,b)\)
定乙個新函式\(\widehat ^n\):1 for class 1, 0 for class 2
\(-lnl(w,b)\)正好是\(p(x)\)和\(q(x)\)兩個伯努利分布的cross entropy 交叉熵
step 3: best function
為什麼logistic regression不使用square error而使用cross entropy
discriminative/generative
上節課的概率模型被稱為是generative的
同乙個訓練集,兩種模型往往得到不同的best function
在小訓練集上,generative model可能更勝一籌
隨著資料量的增大,discriminative model表現更好
generative model的優點
多分類問題
\(y_i=p(c_i|x)\)
\(0\(\sum_iy_i=1\)
loss: \(y_i\)與\(\widehat_i\)做cross entropy \(-\sum_^n\widehat_ilny_i\)
logistic regression的侷限性
乙個model的輸入可以來自於其他model的輸出,同樣這個model的輸出也可以作為其他model的輸入,每個model可以看作乙個neuron,這些neuron構成的整個模型就是neural network(神經網路)
《李巨集毅機器學習》task5
假定 lr邏輯回歸假設樣本服從泊松0 1分布,因此p y x 表示式 求最大似然估計 進而求最大對數似然估計 損失函式 損失函式表徵 值與真實值之間的差異程度,如果 值與真實值越接近則損失函式應該越小。在此損失函式可以取為最大似然估計函式的相反數,其次除以m這一因子並不改變最終求導極值結果,通過除以...
李巨集毅機器學習 Introduction
人工智慧是我們想要達到的目標,即讓機器和人一樣智慧型。而機器學習是方法,讓機器從資料中學習,從而得到智慧型的方法。智慧型是什麼呢?對於人類智慧型而言,根據霍華德 加德納的多元智慧型理論,人類的智慧型分為以下七種智慧型 這不僅涵蓋了現在人工智慧的研究領域,計算機視覺 語音識別 自然語言處理等。而且也指...
李巨集毅《機器學習》課程筆記(作業二 分類)
為什麼不能直接用回歸的方式來做分類的問題,因為在回歸裡面,可能同一類裡面的樣本點他們的feature差異很大,但是lable都是1,這就要求求出來的model兼顧所有的樣本點,那麼可能導致model效能較差。下圖表現的非常清晰。在做分類的時候,用到貝葉斯公式,可是公式中的p x c1 應該怎麼算呢?...