機器學習面試簡答題(持續更新)

2021-09-24 03:51:28 字數 1400 閱讀 6221

1.請詳細說說支援向量機(support vector machine,svm)的原理

svm就是在原始資料的樣本空間中找到乙個最大間隔的劃分超平面,將樣本進行分類。

超平面的確定只與支援向量有關,通過最大化支援向量到超平面的距離,來確定超平面的位置。

求解最大化距離時,可以使用拉格朗日乘數法將問題轉化為其對偶問題。

2、樹形結構為什麼不需要歸一化?

歸一化的目的:避免數值較大的特徵影響數值較小的特徵。

需要歸一化的:通過梯度下降法求解的模型一般都是需要歸一化的,比如線性回歸、logistic回歸、knn、svm、神經網路等模型。

而樹模型研究的是單獨特徵對結果的影響,不存在多個特徵之間的相互約束,概括一點來說因為數值縮放不影響**點位置,對樹模型的結構不造成影響。對於線性模型,特徵值差別很大時,運用梯度下降的時候,損失等高線是橢圓形,需要進行多次迭代才能到達最優點。而對於歸一化的資料,損失等高線是圓形,更少的迭代次數即可到達最優點。

樹模型不使用梯度下降,因為構建樹模型相當於尋找最優**點,因此樹模型是階躍的,在階躍點處不可導。

3、歸一化和標準化的區別?

標準化:特徵均值為0,方差為1

歸一化:將每個特徵向量縮放到相同的數值範圍,如【0,1】

4、處理資料不平衡

解決資料不平衡問題的方法有很多,最常用的方法有過取樣(對少部分樣本進行複製),欠取樣(對多部分樣本隨機刪除,會造成資訊缺失),而最常用的方法也有這麼多種,如何根據實際問題選擇合適的方法呢?接下來談談一些我的經驗。

1、在正負樣本都非常之少的情況下,應該採用資料合成的方式;

2、在負樣本足夠多,正樣本非常之少且比例及其懸殊的情況下,應該考慮一分類方法;

3、在正負樣本都足夠多且比例不是特別懸殊的情況下,應該考慮取樣或者加權的方法。

4、取樣和加權在數學上是等價的,但實際應用中效果卻有差別。尤其是取樣了諸如random forest等分類方法,訓練過程會對訓練集進行隨機取樣。在這種情況下,如果計算資源允許上取樣往往要比加權好一些。

5、另外,雖然上取樣和下取樣都可以使資料集變得平衡,並且在資料足夠多的情況下等價,但兩者也是有區別的。實際應用中,我的經驗是如果計算資源足夠且小眾類樣本足夠多的情況下使用上取樣,否則使用下取樣,因為上取樣會增加訓練集的大小進而增加訓練時間,同時小的訓練集非常容易產生過擬合。

原文:

JAVA面試題 簡答題

1.和 的區別 1 和 都可以用作邏輯與的運算子,表示邏輯與 and 當運算子兩邊表示式結果都為true時,整個運算結果才為true 否則,只要有一邊表示式為false,則運算結果為false。2 具有短路功能,即如果第乙個表示式結果為false,則不會計算第二個表示式,直接返回false 3 可以...

面試常考的簡答題

程式 是一組指令的有序集合,它是乙個靜態的實體,本身沒有任何執行的含義。程序 它相對於程式不同,它是乙個動態的實體,它有自己的生命週期,所以可以說它因建立而產生,因排程而執行 程序是系統資源分配和排程的基本單位,用程序控制塊唯一標識乙個程序,在執行過程中擁有自己的記憶體單元,可以有乙個或者多個執行緒...

JSP面試題之簡答題

jsp 簡答題 1 jsp有哪些內建物件?作用分別是什麼?out物件 主要用來向客戶端輸出資料,代表輸出流物件。request物件 客戶端的請求物件 response物件 封裝了jsp產生的響應,然後被傳送到客戶端以響應客戶端的請求。session物件 用來儲存每個使用者資訊,比便跟蹤每個使用者的操...