1. 對於線性回歸模型,增加乙個特徵變數,以下可能正確的是 :
1. r-squared 和 adjusted r-squared都是遞增的
2. r-squared 是常量的,adjusted r-squared是遞增的
3. r-squared 是遞減的, adjusted r-squared 也是遞減的
4. r-squared 是遞減的, adjusted r-squared是遞增的
a 1 和 2
b 1 和 3
c 2 和 4
d 以上都不是
2. 變數選擇是用來選擇最好的判別器子集, 如果要考慮模型效率,我們應該做哪些變數選擇的考慮?
1. 多個變數其實有相同的用處
2. 變數對於模型的解釋有多大作用
3. 特徵攜帶的資訊
4. 交叉驗證
a 1 和 4
b 1, 2 和 3
c 1,3 和 4
d 以上所有
3. 下面的交叉驗證方法
i. 有放回的bootstrap方法
ii. 留乙個測試樣本的交叉驗證
iii. 5折交叉驗證
iv. 重複兩次的5折教程驗證
當樣本是1000時,下面執行時間的順序,正確的是
a i > ii > iii > iv
b ii > iv > iii > i
c iv > i > ii > iii
d ii > iii > iv > i
4. 如果乙個訓練好的模型在測試集上有100%的準確率, 這是不是意味著在乙個新的資料集上,也會有同樣好的表現?
a 是的,這說明這個模型的範化能力已經足以支援新的資料集合了
b 不對,依然後其他因素模型沒有考慮到,比如噪音資料
5. 以下哪個圖是knn演算法的訓練邊界
a b
b a
c d
d c
e 都不是
6. 對應gradientboosting tree演算法, 以下說法正確的是:
1. 當增加最小樣本**個數,我們可以抵制過擬合
2. 當增加最小樣本**個數,會導致過擬合
3. 當我們減少訓練單個學習器的樣本個數,我們可以降低variance
4. 當我們減少訓練單個學習器的樣本個數,我們可以降低bias
a 2 和 4
b 2 和 3
c 1 和 3
d 1 和 4
7. 以下說法正確的是
a 乙個機器學習模型,如果有較高準確率,總是說明這個分類器是好的
b 如果增加模型複雜度, 那麼模型的測試錯誤率總是會降低
c 不可以使用聚類「類別id」作為乙個新的特徵項,用監督學習進行學習
d abc全錯
8. 在有監督學習中, 我們如何使用聚類方法?
1. 我們可以先建立聚類類別, 然後在每個類別上用監督學習分別進行學習
2. 我們可以使用聚類「類別id」作為乙個新的特徵項, 然後再用監督學習分別進行學習
3. 在進行監督學習之前, 我們不能新建聚類類別
4. 我們不可以使用聚類「類別id」作為乙個新的特徵項, 然後再用監督學習分別進行學習
a 2 和 4
b 1 和 2
c 3 和 4
d 1 和 3
9. 資料科學家可能會同時使用多個演算法(模型)進行**, 並且最後把這些演算法的結果整合起來進行最後的**(整合學習),以下對整合學習說法正確的是
a 單個模型之間有高相關性
b 單個模型之間有低相關性
c 在整合學習中使用「平均權重」而不是「投票」會比較好
d 單個模型都是用的乙個演算法
10. 對於下圖, 最好的主成分選擇是多少 ?
a 7
b 30
c 35
d can』t say
獲取答案和詳細的答案解析:
機器學習題 含答案和解析
1.目標變數在訓練集上的7個實際值為 1,1,1,1,0,0,0 目標變數的熵近似值是 log3 7 0.847,log4 7 0.560 a 0.683 b 0.683 c 0.724 d 0.243 2.關於k means聚類演算法說法不正確的是 a 對大資料集有較高的效率並且具有可伸縮性。b ...
機器學習題 含答案和解析
1.假設x公司的員工收入分布中位數為 35,000,25 和75 比例處的數值為 21,000 和 53,000。收入 1會被認為是異常值嗎?a 是 b 否 c 需要更多資訊 d 以上都不對 2.眾所周知,身高體重呈正相關。忽略圖表大小 變數被標準化了 下列兩張圖哪張更像描繪身高 x軸 體重 y軸 ...
機器學習題 含答案和解析
a 只有 1 b 只有 2 c 只有 3 2.下面哪個 些超引數的增加可能會造成隨機森林資料過擬合?1 樹的數量 2 樹的深度 3 學習速率 a 只有 1 b 有1 2 c 只有 3 d 都正確 3.下面哪一項對梯度下降 gd 和隨機梯度下降 sgd 的描述是正確的?1 在 gd 和 sgd 中,每...