2.1 資料集包含1000個樣本,其中500個正例、500個反例,將其劃分為包含70%樣本的訓練集和30%樣本的測試集用於留出法評估,試估算共有多少種劃分方法。
解:考慮到資料分布的一致性,訓練集應包含350個正例和350個反例;
因此,劃分方法有 c_500^350∙c_500^350 種。
2.2 資料集包含100個樣本,其中正、反例各一半,假定學習演算法所產生的模型是將新樣本**為訓練樣本數較多的類別(訓練樣本數相同時進行隨機猜測),試給出用10折交叉驗證法和留一法分別對錯誤率進行評估所得的結果。
解:(1)10折交叉驗證法
由於正反例數目相同,錯誤率為50%
(2)留一法
假定留下的是正例,那麼訓練集中正例為50,負例為49,判斷最後乙個為正例的概率為50/99,即錯誤率為50/99.
2.3 若學習器a的f1值比學習器b高,試析a的bep值是否也比b高。
解:bep是查準率p與查全率r相等時的取值,f1則為p與r的調和平均。
根據1/f1 =1/2∙(1/p+1/r),且f1>f2,顯然bepa>bepb。
2.4 試述真正例率(tpr)、假正例率(fpr)與查準率(p)、查全率(r)之間的聯絡。
解:真正例率是所有真實正例中真正例的比例;
假正例率是所有真實反例中假正例的比例;
查準率是所有**正例中真正例的比例;
查全率是所有真實正例中真正例的比例;
所以查全率與真正例率相等 , r=tpr
2.5
機器學習 周志華 筆記 第2章
經驗誤差,也叫訓練誤差,在訓練集上的誤差,與之對應的是泛化誤差 generalization error,在新樣本上的誤差 評估乙個好的模型顯然是泛化誤差最小。但是實際上事先並不知道新樣本是什麼,所以實際能做的是最小化經驗誤差。經驗誤差也不能完全決定模型的泛化誤差,會存在過擬合現象。書中簡單說明了過...
周志華《機器學習》第一章總結 課後習題
第一章介紹了本書所涉及基本術語和概念。同時簡要介紹了機器學習的發展史。習題 1.1若表 1.1 只包含 1 和 4 兩個樣例,試給出相應的樣本空間。已知色澤有兩種取值,根蒂和敲聲分別有三種取值。表 1.1 西瓜資料集 編號色澤 根蒂敲聲好瓜1 青綠蜷縮濁響是 2烏黑蜷縮濁響是3 青綠硬挺清脆否 4烏...
機器學習 周志華 讀書筆記 課後習題 第二章
錯誤率 分類錯誤的樣本佔樣本總數的比例。e a m 精度 1 a m 訓練誤差 經驗誤差 訓練集上的誤差 泛化誤差 新樣本上的誤差。區分資料集,把資料集分為兩部分,一部分是訓練集s另外一部分是測試集t 乙個資料集分成互斥的兩部分,分別作為訓練集和測試集。可以通過分層取樣的方法,保證兩個資料集的資料分...