機器學習 機器學習試題 一

2021-08-19 02:54:46 字數 1541 閱讀 1075

在網上找的一些試題及延伸的一些問題,以選擇題為主,主要是關於基礎理論知識,同時給出自己聯想到的一些問題。當然基礎問題應當包含演算法本身的過程和某些推導過程。比如:lr、svm的推導。

試題1: 已知座標軸中兩點a(

2,−2

)b(−

1,2),求

這兩點的曼哈頓距離(l1距離)。

答案:7 。向量ab(-3,4),l1 是向量中非零元素的絕對值和。

問題延伸:機器學習演算法中哪些應用了l1,哪些應用了l2.

參考鏈結正則化技術

試題2:svm中的核技巧(kernal trick)的作用包括以下哪項?

a. 特徵公升維

b. 特徵降維

c. 防止過擬合

答案:c 

核技巧使用核函式將樣本從原特徵空間對映到更高維的空間,使得樣本在更高維的空間中線性可分。

問題延伸:svm的核函式本質及推導過程。

試題3: 在資料預處理階段,我們常常對數值特徵進行歸一化或標準化(standardization, normalization)處理。這種處理方式理論上不會對下列哪個模型產生很大影響?

a. k-means

b. k-nn

c. 決策樹

答案:c

k-means和k-nn都需要使用距離。而決策樹對於數值特徵,只在乎其大小排序,而非絕對大小。不管是標準化或者歸一化,都不會影響數值之間的相對大小。關於決策樹如何對數值特徵進行劃分

問題延伸:機器學習那些演算法是進行歸一化處理或標準化。

試題4:下面哪個情形不適合作為k-means迭代終止的條件?

a. 前後兩次迭代中,每個聚類中的成員不變

b. 前後兩次迭代中,每個聚類中樣本的個數不變

c. 前後兩次迭代中,每個聚類的中心點不變

答案:b

a和c是等價的,因為中心點是聚類中成員各座標的均值

問題延伸:k-means的k值選擇及更新,迭代終止的兩個條件。

試題5

關於欠擬合(under-fitting),下面哪個說法是正確的?

a. 訓練誤差較大,測試誤差較小

b. 訓練誤差較小,測試誤差較大

c. 訓練誤差較大,測試誤差較大

答案:c

當欠擬合發生時,模型還沒有充分學習訓練集中基本有效資訊,導致訓練誤差太大。測試誤差也會較大,

因為測試集中的基本資訊(分布)是

與訓練集相一致的。

延伸問題:模型狀態?怎樣判定?工具是什麼?

機器學習 機器學習目錄

注 後期有時間的話會對每乙個演算法進行講解。1 普通線性回歸 2 廣義線性模型 3 邏輯回歸 4 線性判定分析1 決策樹基本原理與構建 2 cart演算法 3 回歸決策樹 4 分類決策樹1 貝葉斯定理與樸素貝葉斯 2 高斯貝葉斯分類器 3 多項式貝葉斯分類器 4 伯努利貝葉斯分類器 5 遞增式學習1...

機器學習 機器學習概論

3 模型評估與模型選擇 4.具體應用 統計學習 是關於計算機基於 資料 構建概率統計模型並運用模型對資料進行 分析 統計學習的三要素 模型在監督學習中,模型就是所要學習的條件概率分布或決策函式。這在後面的章節中會重點介紹。策略 評價模型的標準 用損失函式和代價函式來度量 錯誤的程度。1 幾種損失函式...

機器學習 機器學習基礎

資料集劃分的api 返回值 訓練特徵,測試特徵,訓練目標,測試目標 方式1 獲取小規模的資料集 importsklearn.datasets as datasets iris datasets.load iris 提取樣本資料 feature iris data target iris target...