1. 假設我們有乙個資料集,在乙個深度為 6 的決策樹的幫助下,它可以使用 100% 的精確度被訓練。現在考慮一下兩點,並基於這兩點選擇正確的選項。
注意:所有其他超引數是相同的,所有其他因子不受影響。
1.深度為 4 時將有高偏差和低方差
2.深度為 4 時將有低偏差和低方差
a 只有 1
b 只有 2
c 1 和 2
d 沒有乙個
2. 為了得到和 svd 一樣的投射(projection),你需要在 pca 中怎樣做?
a 將資料轉換成零均值
b 將資料轉換成零中位數
c 無法做到
3. 給定三個變數 x,y,z。(x, y)、(y, z) 和 (x, z) 的 pearson 相關性係數分別為 c1、c2 和 c3。現在 x 的所有值加 2(即 x+2),y 的全部值減 2(即 y-2),z 保持不變。那麼運算之後的 (x, y)、(y, z) 和 (x, z) 相關性係數分別為 d1、d2 和 d3。現在試問 d1、d2、d3 和 c1、c2、c3 之間的關係是什麼?
a d1= c1, d2 < c2, d3 > c3
b d1 = c1, d2 > c2, d3 > c3
c d1 = c1, d2 > c2, d3 < c3
d d1 = c1, d2 < c2, d3 < c3
e d1 = c1, d2 = c2, d3 = c3
4. 最出名的降維演算法是 pca 和 t-sne。將這兩個演算法分別應用到資料「x」上,並得到資料集「x_projected_pca」,「x_projected_tsne」。下面哪一項對「x_projected_pca」和「x_projected_tsne」的描述是正確的?
a x_projected_pca 在最近鄰空間能得到解釋
b x_projected_tsne 在最近鄰空間能得到解釋
c 兩個都在最近鄰空間能得到解釋
d 兩個都不能在最近鄰空間得到解釋
5. 下面哪個/些選項對 k 折交叉驗證的描述是正確的?
1.增大 k 將導致交叉驗證結果時需要更多的時間
2.更大的 k 值相比於小 k 值將對交叉驗證結構有更高的信心
3.如果 k=n,那麼其稱為留一交叉驗證,其中 n 為驗證集中的樣本數量
a 1 和 2
b 2 和 3
c 1 和 3
d 1、2 和 3
6. 下面對整合學習模型中的弱學習者描述錯誤的是?
a 他們經常不會過擬合
b 他們通常帶有高偏差,所以其並不能解決複雜學習問題
c 他們通常會過擬合
7. 如果在乙個高度非線性並且複雜的一些變數中, 乙個樹模型可能比一般的回歸模型效果更好. 這是()
a 對的
b 錯的
8. 當我們構造線性模型時, 我們注意變數間的相關性. 在相關矩陣中搜尋相關係數時, 如果我們發現3對變數的相關係數是(var1 和var2, var2和var3, var3和var1)是-0.98, 0.45, 1.23 . 我們可以得出什麼結論:
1. var1和var2是非常相關的
2. 因為var1和var2是非常相關的, 我們可以去除其中乙個
3. var3和var1的1.23相關係數是不可能的
a 1 and 3
b 1 and 2
c 1,2 and 3
d 1
9. 對於線性回歸,下面哪些說法是正確的?
1. 找到離群點很重要, 因為線性回歸對離群點很敏感
2. 線性回歸要求所有變數必須符合正態分佈
3. 線性回歸假設資料沒有多重線性相關性
a 1 和 2
b 2 和 3
c 1,2 和 3
d 以上都不是
10. 對於下面三個模型的訓練情況, 下面說法正確的是:
1. 第一張圖的訓練錯誤與其餘兩張圖相比,是最大的
2. 最後一張圖的訓練效果最好,因為訓練錯誤最小
3. 第二張圖比第一和第三張圖魯棒性更強,是三個裡面表現最好的模型
4. 第三張圖相對前兩張圖過擬合了
5. 三個圖表現一樣,因為我們還沒有測試資料集
a 1 和 3
b 2 和 3
c 1, 3 和 4
d 5
獲取答案和詳細的答案解析:
機器學習題 含答案和解析
1.目標變數在訓練集上的7個實際值為 1,1,1,1,0,0,0 目標變數的熵近似值是 log3 7 0.847,log4 7 0.560 a 0.683 b 0.683 c 0.724 d 0.243 2.關於k means聚類演算法說法不正確的是 a 對大資料集有較高的效率並且具有可伸縮性。b ...
機器學習題 含答案和解析
1.假設x公司的員工收入分布中位數為 35,000,25 和75 比例處的數值為 21,000 和 53,000。收入 1會被認為是異常值嗎?a 是 b 否 c 需要更多資訊 d 以上都不對 2.眾所周知,身高體重呈正相關。忽略圖表大小 變數被標準化了 下列兩張圖哪張更像描繪身高 x軸 體重 y軸 ...
機器學習題 含答案和解析
a 只有 1 b 只有 2 c 只有 3 2.下面哪個 些超引數的增加可能會造成隨機森林資料過擬合?1 樹的數量 2 樹的深度 3 學習速率 a 只有 1 b 有1 2 c 只有 3 d 都正確 3.下面哪一項對梯度下降 gd 和隨機梯度下降 sgd 的描述是正確的?1 在 gd 和 sgd 中,每...