1、對於下圖, 最好的主成分選擇是多少 ?
b30c35
dcan』t say
正確答案是: b
主成分選擇使variance越大越好, 在這個前提下, 主成分越少越好。
2、資料科學家可能會同時使用多個演算法(模型)進行**, 並且最後把這些演算法的結果整合起來進行最後的**(整合學習),以下對整合學習說法正確的是
a單個模型之間有高相關性
b單個模型之間有低相關性
c在整合學習中使用「平均權重」而不是「投票」會比較好
d單個模型都是用的乙個演算法
正確答案是: b ????
???bagging具有低相關性,而boosting是不是高相關性???
3、在有監督學習中, 我們如何使用聚類方法?
我們可以先建立聚類類別, 然後在每個類別上用監督學習分別進行學習
我們可以使用聚類「類別id」作為乙個新的特徵項, 然後再用監督學習分別進行學習
在進行監督學習之前, 我們不能新建聚類類別
我們不可以使用聚類「類別id」作為乙個新的特徵項, 然後再用監督學習分別進行學習
a2 和 4
b1 和 2
c3 和 4
d1 和 3
正確答案是: b
我們可以為每個聚類構建不同的模型, 提高**準確率。
「類別id」作為乙個特徵項去訓練, 可以有效地總結了資料特徵。
4、以下說法正確的是
乙個機器學習模型,如果有較高準確率,總是說明這個分類器是好的
如果增加模型複雜度, 那麼模型的測試錯誤率總是會降低
如果增加模型複雜度, 那麼模型的訓練錯誤率總是會降低
我們不可以使用聚類「類別id」作為乙個新的特徵項, 然後再用監督學習分別進行學習a1
b2c3
d2和3e都錯
正確答案是:e
1的模型中, 如果負樣本佔比非常大,也會有很高的準確率, 對正樣本的分類不一定很好;
4的模型中, 「類別id」可以作為乙個特徵項去訓練, 這樣會有效地總結了資料特徵。
5、對應gradientboosting tree演算法, 以下說法正確的是:
當增加最小樣本**個數,我們可以抵制過擬合
當增加最小樣本**個數,會導致過擬合
當我們減少訓練單個學習器的樣本個數,我們可以降低variance
當我們減少訓練單個學習器的樣本個數,我們可以降低bias
a2 和 4
b2 和 3
c1 和 3
d1 和 4
正確答案是:c
最小樣本**個數是用來控制「過擬合」引數。太高的值會導致「欠擬合」,這個引數應該用交叉驗證來調節。
第二點是靠bias和variance概念的。
6、以下哪個圖是knn演算法的訓練邊界
bacd
dce都不是
正確答案是: b
knn演算法肯定不是線性的邊界, 所以直的邊界就不用考慮了。另外這個演算法是看周圍最近的k個樣本的分類用以確定分類,所以邊界一定是坑坑窪窪的。
7、如果乙個訓練好的模型在測試集上有100%的準確率, 這是不是意味著在乙個新的資料集上,也會有同樣好的表現?
a是的,這說明這個模型的範化能力已經足以支援新的資料集合了
b不對,依然後其他因素模型沒有考慮到,比如噪音資料
正確答案是: b
沒有乙個模型是可以總是適應新資料的。我們不可能可到100%準確率。
8、下面的交叉驗證方法
i. 有放回的bootstrap方法
ii. 留乙個測試樣本的交叉驗證
iii. 5折交叉驗證
iv. 重複兩次的5折教程驗證
當樣本是1000時,下面執行時間的順序,正確的是
ai > ii > iii > iv
bii > iv > iii > i
civ > i > ii > iii
dii > iii > iv > i
正確答案是: b
boostrap方法是傳統地隨機抽樣,驗證一次的驗證方法,只需要訓練1次模型,所以時間最少。
留乙個測試樣本的交叉驗證,需要n次訓練過程(n是樣本個數),這裡,要訓練1000個模型。
5折交叉驗證需要訓練5個模型。
重複2次的5折交叉驗證,需要訓練10個模型。
所有b是正確的
9、變數選擇是用來選擇最好的判別器子集, 如果要考慮模型效率,我們應該做哪些變數選擇的考慮?
多個變數其實有相同的用處
變數對於模型的解釋有多大作用
特徵攜帶的資訊
交叉驗證
a1 和 4
b1, 2 和 3
c1,3 和 4
d以上所有
正確答案是:c
注意, 這題的題眼是考慮模型效率,所以不要考慮選項2.
10、對於線性回歸模型,包括附加變數在內,以下的可能正確的是 :
r-squared 和 adjusted r-squared都是遞增的
r-squared 是常量的,adjusted r-squared是遞增的
r-squared 是遞減的, adjusted r-squared 也是遞減的
r-squared 是遞減的, adjusted r-squared是遞增的
a1 和 2
b1 和 3
c2 和 4
d以上都不是
正確答案是:d
r-squared不能決定係數估計和**偏差,這就是為什麼我們要估計殘差圖。但是,r-squared有r-squared 和 predicted r-squared 所沒有的問題。
每次你為模型加入**器,r-squared遞增或不變.
乙個月刷完機器學習筆試題300題(9)
1 對於下面三個模型的訓練情況,下面說法正確的是 第一張圖的訓練錯誤與其餘兩張圖相比,是最大的 最後一張圖的訓練效果最好,因為訓練錯誤最小 第二張圖比第一和第三張圖魯棒性更強,是三個裡面表現最好的模型 第三張圖相對前兩張圖過擬合了 三個圖表現一樣,因為我們還沒有測試資料集 a 1 和 3 b 1 和...
乙個月刷完機器學習筆試題300題(12)
1 假定你用乙個線性svm分類器求解二類分類問題,如下圖所示,這些用紅色圓圈起來的點表示支援向量 如果移除這些圈起來的資料,決策邊界 即分離超平面 是否會發生改變?ayesbno 正確答案是 b 從資料的分布來看,移除那三個資料,決策邊界不會受影響。2 如果將資料中除圈起來的三個點以外的其他資料全部...
頹廢的乙個月
哎,九月末到十月末實在是太頹廢了。其實是因為不想面對一些事。但現在想想,是我自己忘記了最初的夢想,之去追求一些有的沒的的,所以才如此不精進。記得那幾天玩的也不好,每每想到自己還沒學好,還是個醬油的時候,就很煩惱。室友也說我,為什麼最近不怎麼去實驗室了?我也不知道怎麼回答。甚至可以躺床上一整天,一直躺...