《機器學習》 西瓜書習題 第 2 章

2022-09-03 23:24:19 字數 3930 閱讀 8569

資料集包含 \(1000\) 個樣本, 其中 \(500\) 個正例、\(500\) 個反例, 將其劃分為包含 \(70\%\) 樣本的訓練集和 \(30\%\) 樣本的測試集用於留出法評估, 試估算共有多少種劃分方式.

如果劃分要保證正例和反例一樣多的話, 那麼劃分方式數量 \(n\) 有

\[\begin

n &= c^_\times c_^\\

&=(c^_)^

\end\]

如果不考慮的話則有

\[n = c^_=c^_

\]資料集包含 \(100\) 個樣本, 其中正、反例各一半, 假定學習演算法所產生的模型是將新樣本**為訓練樣本數較多的類別 (訓練樣本數相同時進行隨機猜測) , 試給出用 \(10\) 折交叉驗證法和留一法分別對錯誤率進行評估所得的結果.

\(10\) 折交叉驗證, 我們認為劃分是隨意的, 那麼根據對稱性可知, 對於每個子集來說正例更多的概率為 \(\frac\) , 反例也是一樣, 所以**測試集相當於隨機**, 即錯誤率為 \(50\%\) .

而留一法要麼選擇乙個正例作為測試集, 要麼選擇乙個反例, 無論是哪一種, 總會**與測試集相反的結果, 即正確率為 \(0\%\) .

這告訴我們留一法並不一定比交叉驗證法更 '好' . 而要看具體情況選擇要劃分為幾個子集 (即幾折交叉驗證, 而留一法只是交叉驗證法的特例, 即子集數等於樣本數, 每個子集包含乙個樣本) .

若學習器 \(\mathrm\) 的 \(\mathrm\) 值比學習器 \(\mathrm\) 高, 試析 \(\mathrm\) 的 \(\mathrm\) 值是否也比 \(\mathrm\) 高.

\(\mathrm\) 值和 \(\mathrm\) 並沒有必然聯絡, 很容易就可以找出乙個反例.

試述真正例率 \((\mathrm)\)、假正例率 \((\mathrm)\) 與查準率 \((\mathrm)\) 、查全率 \((\mathrm)\) 之間的聯絡.

根據表\(2.1\) 分類結果混淆矩陣

**結果

真實情況

正例反例

正例\(\mathrm\) (真正例)

\(\mathrm\) (假反例)

反例\(\mathrm\) (假正例)

\(\mathrm\) (假反例)

則有\[\begin

\mathrm = \frac}+\mathrm}\\

\mathrm = \frac} + \mathrm}\\

\mathrm = \frac} + \mathrm}\\

\mathrm = \frac} + \mathrm}

\end\]

試證明式 \((2.22)\).

\[\begin

\ell_ = \frac\sum_^+\in d^+}\sum_^-\in d^-}\big(\mathbb\big(f(\boldsymbol) < f(\boldsymbol)\big)+\frac\mathbb\big(f(\boldsymbol)=f(\boldsymbol)\big)\big)

\end

\tag\]

\[auc = 1 - \ell_\tag

\]其實只要去分解 \((2.21)\) 就能發現它求的是 \(\mathrm\) 曲線每一小段的右邊的面積之和. \(\frac\) 求的是單位矩形的面積, \(\sum\limits_^-\in d^-}\mathbb\big(f(\boldsymbol) < f(\boldsymbol)\big)\) 求的是左邊有多少個單位矩形, \(\sum\limits_^+\in d^+}\) 是對每一段都進行上述求和, 而 \(\frac\mathbb\big(f(\boldsymbol)=f(\boldsymbol)\big)\) 則是考慮到了斜線的結果 (某個正例和反例的分類概率相同) .

試述錯誤率與 \(\mathrm\) 曲線的聯絡.

錯誤率越低, \(\mathrm\) 曲線越凸. 是長得凸, 跟凸函式不一樣.

試證明任意一條 \(\mathrm\) 曲線都有一條代價曲線與之對應, 反之亦然.

想象我們現在有一條 \(\mathrm\) 曲線, 根據書上的方法我們可以畫出有且僅有一條代價曲線. 因此第乙個問題得證. 至於第二個問題, 反之應該不亦然, 觀察書中圖2.5 代價曲線與期望總體代價可以發現有些線段是無法 '影響' 代價曲線的 (整體在曲線上方且不作為某點切線), 因此我們可以認為在畫出代價曲線的同時我們損失了資訊, 因此我們無法僅通過代價曲線 '還原' \(\mathrm\) 曲線, 所以反之不亦然. 但是如果有無窮多資料以致 \(\mathrm\) 曲線與代價曲線變得光滑 (處處可導), 那麼是可以成立的(但是這樣的前提資料無窮多根本無法成立).

\(\mathrm\) 規範化和 \(\mathrm\) 規範化是兩種常用的規範化方法. 令 \(x\) 和 \(x'\) 分別表示變數在規範化前後的取值, 相應的, 令 \(x_\) 和 \(x_\) 表示規範化前的最小值和最大值, \(x'_\) 和 \(x'_\) 表示規範化後的最小值和最大值, \(\bar\) 和 \(\sigma_x\) 分別表示規範化前的均值和標準差, 則 \(\mathrm\) 規範化、\(\mathrm\) 規範化分別如式 \((2, 43)\) 和 \((2, 44)\) 所示. 試析二者的優缺點.

$$x' = x' + \frac} - x_}\times (x'_ - x'), \tag$$

$$x' = \frac}. \tag$$

\(\mathrm\) 是最常用的規範化, 可令樣本均值為 \(0\) , 標誌差和方差為 \(1\) , 這樣的好處是可以使用相應的標準 (比如標準正態分佈). \(\mathrm\) 規範化讓資料分布在 \([min', max']\). \(\mathrm\) 優點在於新加入資料不大於最大值以及不小於最小值時不需要重新計算, 但缺點在於如果有極端值 (極大或極小) 會導致其他點幾乎縮成乙個點. \(\mathrm\) 的優點已說過, 缺點就是加入新資料時必須重新計算.

歸一化還可以加快訓練速度.

試述 \(\chi^2\) 檢驗過程.

\(\chi^2\) 中文稱卡方檢驗.

卡方檢驗就是統計樣本的實際觀測值與理論推斷值之間的偏離程度,實際觀測值與理論推斷值之間的偏離程度就決定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若兩個值完全相等時,卡方值就為0,表明理論值完全符合。

注意:卡方檢驗針對分類變數。

\[\chi^2 = \sum_^\frac\tag

\]假設有兩個隨機變數 \(x\) 和 \(y\) , 值域為 \(\\) 和 \(\\), 其樣本頻數列聯表為

\(y_1\)

\(y_2\)

總計\(x_1\)

\(a\)

\(b\)

\(a+b\)

\(x_2\)

\(c\)

\(d\)

\(c+d\)

總計\(a+c\)

\(b+d\)

\(a+b+c+d\)

\(h_1\): \(x\) 與 \(y\) 有關係.

\(h_0\): \(x\) 與 \(y\) 沒有關係.

那麼根據 \((1)\) 有

\[\chi^2 = \frac

\]自由度$$v=(行數-1)(列數-1) = 1$$

然後查表, 得到 \(h_1\) 成立的概率, 按需要決定是否接受原假設.

試述在 \(\mathrm\) 檢驗中使用式 \((2.34)\) 與 \((2.35)\) 的區別.

式 \((2.34)\) 沒有考慮多個資料集之間的影響, 因此說太保守.

《機器學習》西瓜書習題 第 4 章

試證明對於不含衝突資料 即特徵向量完全相同但標記不同 的訓練集,必存在與訓練集一致 即訓練誤差為 0 的決策樹.既然每個標記不同的資料特徵向量都不同,只要樹的每一條 從根解點到乙個葉節點算一條 枝幹代表一種向量,這個決策樹就與訓練集一致.試析使用 最小訓練誤差 作為決策樹劃分選擇準則的缺陷.4.1 ...

《機器學習》西瓜書習題 第 3 章

試析在什麼情況下式 3.2 中不必考慮偏置項 b 書中有提到,可以把 x 和 b 吸收入向量形式 hat w b 此時就不用單獨考慮 b 了.其實還有很多情況不用,比如說使用了 mathrm 編碼,就可以不用考慮偏置項.更廣泛的情況是,如果偏置項 b 可以被 包含 在另外的一些離散特徵裡,那麼就不用...

《機器學習》西瓜書習題 第 1 章

表 1.1 中若只包含編號為 1 和 4 的兩個樣例,試給出相應的版本空間.這應該不難理解吧,直接上 編號色澤 根蒂敲聲 好瓜 1 青綠蜷縮濁響是 4 烏黑稍蜷沉悶否 與使用單個合取式來進行假設表示相比,使用 析合正規化 將使得假設空間具有更強的表示能力.例如 好瓜 leftrightarrow b...