1、對於下面三個模型的訓練情況, 下面說法正確的是:
第一張圖的訓練錯誤與其餘兩張圖相比,是最大的
最後一張圖的訓練效果最好,因為訓練錯誤最小
第二張圖比第一和第三張圖魯棒性更強,是三個裡面表現最好的模型
第三張圖相對前兩張圖過擬合了
三個圖表現一樣,因為我們還沒有測試資料集
a 1 和 3
b 1 和 3
c 1, 3 和 4
d 5正確答案是:c
最後一張過擬合, 訓練錯誤最小, 第一張相反, 訓練錯誤就是最大了. 所以1是對的;
僅僅訓練錯誤最小往往說明過擬合, 所以2錯, 4對;
第二張圖平衡了擬合和過擬合, 所以3對;
2、對於線性回歸,我們應該有以下哪些假設?
找到離群點很重要, 因為線性回歸對離群點很敏感
線性回歸要求所有變數必須符合正態分佈
線性回歸假設資料沒有多重線性相關性
a1 和 2
b2 和 3
c1,2 和 3
d以上都不是
正確答案是:d
第1個假設, 離群點要著重考慮, 第一點是對的
第2個假設, 正態分佈不是必須的. 當然, 如果是正態分佈, 訓練效果會更好
第3個假設, 有少量的多重線性相關性也是可以的, 但是我們要盡量避免
3、當我們構造線性模型時, 我們注意變數間的相關性. 在相關矩陣中搜尋相關係數時, 如果我們發現3對變數的相關係數是(var1 和var2, var2和var3, var3和var1)是-0.98, 0.45, 1.23 . 我們可以得出什麼結論:
var1和var2是非常相關的
因為var1和var2是非常相關的, 我們可以去除其中乙個
var3和var1的1.23相關係數是不可能的 a
1 and 3
b1 and 2
c1,2 and 3d1
正確答案是:c
相關性係數範圍應該是 [-1,1]
一般地, 如果相關係數大於0.7或者小於-0.7, 是高相關的.
var1和var2相關係數是接近負1, 所以這是多重線性相關, 我們可以考慮去除其中乙個.
所以1, 2, 3個結論都是對的, 選c.
4、如果在乙個高度非線性並且複雜的一些變數中, 乙個樹模型可能比一般的回歸模型效果更好. 這是()a對的
b錯的正確答案是:a
5、下面對整合學習模型中的弱學習者描述錯誤的是?
a他們經常不會過擬合
b他們通常帶有高偏差,所以其並不能解決複雜學習問題
c他們通常會過擬合
正確答案是:c
注意是錯誤的描述
弱學習者是問題的特定部分。所以他們通常不會過擬合,這也就意味著弱學習者通常擁有低方差和高偏差。
6、下面哪個/些選項對 k 折交叉驗證的描述是正確的?
1.增大 k 將導致交叉驗證結果時需要更多的時間
2.更大的 k 值相比於小 k 值將對交叉驗證結構有更高的信心
3.如果 k=n,那麼其稱為留一交叉驗證,其中 n 為驗證集中的樣本數量
a1 和 2
b2 和 3
c1 和 3
d1、2 和 3
正確答案是:d
大 k 值意味著對過高估計真實預期誤差(訓練的折數將更接近於整個驗證集樣本數)擁有更小的偏差和更多的執行時間(並隨著越來越接近極限情況:留一交叉驗證)。我們同樣在選擇 k 值時需要考慮 k 折準確度和方差間的均衡。
7、最出名的降維演算法是 pca 和 t-sne。將這兩個演算法分別應用到資料「x」上,並得到資料集「x_projected_pca」,「x_projected_tsne」。下面哪一項對「x_projected_pca」和「x_projected_tsne」的描述是正確的?
ax_projected_pca 在最近鄰空間能得到解釋
bx_projected_tsne 在最近鄰空間能得到解釋
c兩個都在最近鄰空間能得到解釋
d兩個都不能在最近鄰空間得到解釋
正確答案是: b
t-sne 演算法考慮最近鄰點而減少資料維度。所以在使用 t-sne 之後,所降的維可以在最近鄰空間得到解釋。但 pca 不能。
8、給定三個變數 x,y,z。(x, y)、(y, z) 和 (x, z) 的 pearson 相關性係數分別為 c1、c2 和 c3。現在 x 的所有值加 2(即 x+2),y 的全部值減 2(即 y-2),z 保持不變。那麼運算之後的 (x, y)、(y, z) 和 (x, z) 相關性係數分別為 d1、d2 和 d3。現在試問 d1、d2、d3 和 c1、c2、c3 之間的關係是什麼?
a d1= c1, d2 < c2, d3 > c3
bd1 = c1, d2 > c2, d3 > c3
cd1 = c1, d2 > c2, d3 < c3
dd1 = c1, d2 < c2, d3 < c3
ed1 = c1, d2 = c2, d3 = c3
正確答案是:e
特徵之間的相關性係數不會因為特徵加或減去乙個數而改變。
9、為了得到和 svd 一樣的投射(projection),你需要在 pca 中怎樣做?
a將資料轉換成零均值
b將資料轉換成零中位數
c無法做到
正確答案是:a
當資料有乙個 0 均值向量時,pca 有與 svd 一樣的投射,否則在使用 svd 之前,你必須將資料均值歸 0
10、假設我們有乙個資料集,在乙個深度為 6 的決策樹的幫助下,它可以使用 100% 的精確度被訓練。現在考慮一下兩點,並基於這兩點選擇正確的選項。
注意:所有其他超引數是相同的,所有其他因子不受影響。
1.深度為 4 時將有高偏差和低方差
2.深度為 4 時將有低偏差和低方差
a只有 1
b只有 2
c1 和 2
d沒有乙個
正確答案是:a
如果在這樣的資料中你擬合深度為 4 的決策樹,這意味著其更有可能與資料欠擬合。因此,在欠擬合的情況下,你將獲得高偏差和低方差。
乙個月刷完機器學習筆試題300題(8)
1 對於下圖,最好的主成分選擇是多少 b30c35 dcan t say 正確答案是 b 主成分選擇使variance越大越好,在這個前提下,主成分越少越好。2 資料科學家可能會同時使用多個演算法 模型 進行 並且最後把這些演算法的結果整合起來進行最後的 整合學習 以下對整合學習說法正確的是 a單個...
乙個月刷完機器學習筆試題300題(12)
1 假定你用乙個線性svm分類器求解二類分類問題,如下圖所示,這些用紅色圓圈起來的點表示支援向量 如果移除這些圈起來的資料,決策邊界 即分離超平面 是否會發生改變?ayesbno 正確答案是 b 從資料的分布來看,移除那三個資料,決策邊界不會受影響。2 如果將資料中除圈起來的三個點以外的其他資料全部...
頹廢的乙個月
哎,九月末到十月末實在是太頹廢了。其實是因為不想面對一些事。但現在想想,是我自己忘記了最初的夢想,之去追求一些有的沒的的,所以才如此不精進。記得那幾天玩的也不好,每每想到自己還沒學好,還是個醬油的時候,就很煩惱。室友也說我,為什麼最近不怎麼去實驗室了?我也不知道怎麼回答。甚至可以躺床上一整天,一直躺...