機器學習題 含答案和解析

2021-10-21 13:33:32 字數 1454 閱讀 3955

1. 下列哪個不屬於常用的文字分類的特徵選擇演算法?

a  卡方檢驗值

b  互資訊

c  資訊增益

d  主成分分析

2. 兩個變數的 pearson 相關性係數為零,但這兩個變數的值同樣可以相關。這句描述是正確還是錯誤?

a  正確

b  錯誤

3. 下面哪個選項中哪一項屬於確定性演算法?

a  pca

b  k-means

c  以上都不是

4. 假設你使用 log-loss 函式作為評估標準。下面這些選項,哪些是對作為評估標準的 log-loss 的正確解釋。

a  如果乙個分類器對不正確的分類很自信,log-loss 會嚴重的批評它

b  對乙個特別的觀察而言,分類器為正確的類別分配非常小的概率,然後對 log-loss 的相應分布會非常大

c  log-loss 越低,模型越好

d  以上都是

5. 在 k-均值演算法中,以下哪個選項可用於獲得全域性最小?

a  嘗試為不同的質心(centroid)初始化執行演算法

b  調整迭代的次數

c  找到集群的最佳數量

d  以上所有

6. 你正在使用帶有 l1 正則化的 logistic 回歸做二分類,其中 c 是正則化引數,w1 和 w2 是 x1 和 x2 的係數。當你把 c 值從 0 增加至非常大的值時,下面哪個選項是正確的?

a  第乙個 w2 成了 0,接著 w1 也成了 0

b  第乙個 w1 成了 0,接著 w2 也成了 0

c  w1 和 w2 同時成了 0

d  即使在 c 成為大值之後,w1 和 w2 都不能成 0

7. 以下說法中錯誤的是()

a  svm對雜訊(如來自其他分部的雜訊樣本)具備魯棒性

b  在adaboost演算法中,所有被分錯樣本的權重更新比例不相同

c  boosting和bagging都是組合多個分類器投票的方法,二者都是根據單個分類器的正確率確定其權重

d  給定n個資料點,如果其中一半用於訓練,一半使用者測試,則訓練誤差和測試誤差之間的差別會隨著n的增加而減少的

8. 下列時間序列模型中,哪乙個模型可以較好地擬合波動性的分析和**。

a  ar模型

b  ma模型

c  arma模型

d  garch模型

9. 在其他條件不變的前提下,以下哪種做法容易引起機器學習中的過擬合問題?

a  增加訓練集量

b  減少神經網路隱藏層節點數

c  刪除稀疏的特徵

d  svm演算法中使用高斯核/rbf核代替線性核

10. 隱馬爾可夫模型三個基本問題以及相應的演算法說法錯誤的是( )

a  評估—前向後向演算法

b  解碼—維特比演算法

c  學習—baum-welch演算法

d  學習—前向後向演算法

獲取答案和詳細的答案解析:

機器學習題 含答案和解析

1.目標變數在訓練集上的7個實際值為 1,1,1,1,0,0,0 目標變數的熵近似值是 log3 7 0.847,log4 7 0.560 a 0.683 b 0.683 c 0.724 d 0.243 2.關於k means聚類演算法說法不正確的是 a 對大資料集有較高的效率並且具有可伸縮性。b ...

機器學習題 含答案和解析

1.假設x公司的員工收入分布中位數為 35,000,25 和75 比例處的數值為 21,000 和 53,000。收入 1會被認為是異常值嗎?a 是 b 否 c 需要更多資訊 d 以上都不對 2.眾所周知,身高體重呈正相關。忽略圖表大小 變數被標準化了 下列兩張圖哪張更像描繪身高 x軸 體重 y軸 ...

機器學習題 含答案和解析

a 只有 1 b 只有 2 c 只有 3 2.下面哪個 些超引數的增加可能會造成隨機森林資料過擬合?1 樹的數量 2 樹的深度 3 學習速率 a 只有 1 b 有1 2 c 只有 3 d 都正確 3.下面哪一項對梯度下降 gd 和隨機梯度下降 sgd 的描述是正確的?1 在 gd 和 sgd 中,每...