(1)在前幾個課程學習過程中沒有發現,後來才突然想到的乙個問題是:為什麼logistic 回歸依然算是線性分類器呢?在logistic回歸中,h(x) = g( \theta*x ),而這個g( z ) = 1/(1- exp(-z)),在我的理解中它不應該屬於線性分類器了吧。
解釋:我們判斷乙個新的輸入樣本屬於哪一類的時候,是依據 h(x) 與0.5的大小關係來判斷的(其實從logistic的畫圖曲線也可以直接看出),當 h(x) > 0.5 時,判別為1,否則判別為0,等價表示是:當\theta*x > 0 時,判別為1,否則判別為0。我想從這個角度可以很清晰地看出,為什麼logistic回歸依然被劃分為線性分類器。因為本質上它仍然在分類過程中通過在特徵平面上畫直線(即\theta*x = 0)來判別。理解了這個也就可以更好地理解這節課中svm畫出來的那個超平面(二維裡是一條線)。
(2)對函式間隔的理解。
函式間隔的表示式為:
目的是使得函式間隔越大越好,但是緣由是什麼呢?老師說這是一種直觀的理解,但卻不同於幾何間隔表示的是圖形中的最短距離。我是這樣理解的:在h(x)中,假如wt x + b 大於等於零,那麼判別h(x)為1,假如wt x + b 小於零則判別為-1. 那這個時候就講到了自信度(自創哈,「confidence」的意思),假如在訓練過程中,對於標籤y=1, 那麼,wt x + b 遠遠地大於0的話,那我就更加有信心地說分類是對的;對於y=-1的情況,若果wt x + b 遠遠地小於0的話,那麼我也就更有信心說分類**是對的。兩者都可以用乙個式子(即函式間隔的表示式)來表示。目的是使得函式間隔盡可能的大。
機器學習第六課 聚類
聚類簡介 今天我們說聚類。說 機器學習 不說的 聚類 那還算是 機器學習 嗎?首先,我們回到混合高斯模型的那副圖 在n 3的高斯模型的擬合下,而三個不同模型會各自代表三個不同資料簇 cluster 將資料點劃分若干個簇的過程叫聚類。在這裡,我們可以挖掘出幾個隱藏資訊 1.聚類的目的其實是為了劃分資料...
第六課 字型
a.字型系列 font family times new roman times,serif b.字型樣式 font style normal 正常 正常顯示文字 font style italic 斜體 以斜體字顯示的文字 font style oblique 傾斜的文字 文字向一邊傾斜 和斜體非...
第六課 列表
序列是python中最基本的 種資料結構。序列 於儲存 組有序的資料,所有的資料在序列當中都有 個唯 的位置 索引 並且序列中的資料會按照新增的順序來分配索引。資料結構指計算機中資料儲存的 式。python 基礎教程 第二版 對序列的定義為 資料結構。資料結構是通過某種方式 例如對元素進行編號 組織...