機器學習 資料探勘 演算法崗位面試題彙總

2021-07-29 19:21:44 字數 2251 閱讀 5241

幾個月前剛剛經歷校招,投的多是機器學習和演算法相關的崗位,特此分享面試中遇到及自己認為比較重要的內容:

1、過擬合和欠擬合怎麼判斷,如何解決?

答:主要可以通過訓練誤差和測試誤差入手判斷是否過擬合或欠擬合。一般而言訓練誤差很低,但是測試誤差較高,過擬合的概率較大,如果訓練誤差和測試誤差都很高,一般是欠擬合。過擬合可以從增加樣本量,減少特徵數,降低模型複雜度等方面入手,實際的例子比如線性回歸中,對於幾十個樣本的資料點就沒必要用幾十個變數去擬合。欠擬合則反之,需要考慮模型是否收斂,特徵是否過少,模型是否過於簡單入手。另外還有l1,l2正則化用於限制權重以及dropout用在神經網路中使得每次訓練的網路結構多樣。l1正則化其實就是講權值的絕對值和加入損失函式,使得權值中0值比重增大,因此得到的權值較為稀疏。l2正則化則是將權重的平方和加入損失函式,使得權值分布更加平均,所以權值較為平滑。

2、特徵如何構造?

答:其實特徵主要針對業務來構造,業務則對應資料,舉個例子,時間特徵可能在交通**方面有效,但是對於文字挖掘可能無效。因此可以考慮從資料統計分析入手,結合業務場景構造特徵,後期可考慮細化特徵或組合特徵等。

3、邏輯回歸的含義和推導?邏輯回歸和線性回歸的區別?

答:含義不多說,這個演算法原理是最基本的。推導可以從損失函式最小化或最大似然方向入手。二者的區別曾經在面試阿里的時候被問到,當時脫口而出乙個是分類乙個是回歸,但深層的含義或許是乙個是迭代求解,乙個是直接求解。望指教

4、模型怎麼優化?怎麼評估模型好壞?

答:模型優化主要從資料和模型兩方面入手,根據具體問題來,比如過擬合且資料量太少的話可以考慮增加資料量。模型評估指標包括分類和回歸,分模擬如準確率,auc值,或和業務相關的加權計算公式。這裡強調下roc曲線的auc值是比較重要的內容,要能知道具體roc曲線是怎麼畫出來的。回歸的話比如mse,rmse或和業務相關的加權計算公式等。

5、資料如何清洗,怎麼處理缺失值?

答:資料清洗主要還是通過分析資料的統計資訊、分布情況、缺失情況等來定,在資料質量較好的前提下盡可能保留更多資料。缺失值的處理方法較多,也是根據具體特徵和業務來定,可以隨機填充、均值填充、或採用簡單演算法如knn,聚類進行填充。當然,如果某些特徵或某些樣本的缺失率太大,可以考慮直接捨棄,是具體情況而定。

6、bagging,boosting的含義?

答:bagging主要和隨機森林關聯,採用有放回的抽樣,所以某個樣本可能出現在多棵樹的訓練集中也可能一次也沒出現,可以並行。另外每棵樹用的特徵集也是從原始特徵集中隨機選擇部分特徵集作為**集合。boosting主要和adaboosting關聯,每棵樹都是根據前一棵樹訓練的殘差作為輸入的,所以一般是序列跑的,每棵樹的訓練集都是整個樣本集,另外對特徵也沒做選擇。

1、演算法工程師

這個崗位的工作內容根據不同公司而定,不過一般都離不開模型演算法,但是這個演算法可能是影象、語音、文字或者其他業務產品的建模。所以具體準備方向也看具體的崗位要求,以影象演算法為例,如今深度學習的火熱不用我說,所以基本的卷積神經網路演算法,影象分類,影象檢測等最近幾年比較有名的*****都應該讀一讀。有條件的話像caffe,tensorflow框架都要用用。

2、機器學習工程師

這個崗位基本上是和演算法差不多的,而且主要服務於公司內部的一些交易資料或流量資料的建模。所以基本的機器學習演算法,優化方法等理論你要清楚,再搭配一些專案或比賽的實戰經驗就更好了。另外有spark的使用經驗會有加分。

3、大資料平台工程師

這個崗位側重平台開發,比如你的公司要開發這樣的乙個平台,以後公司的機器學習工程師跑模型都在這個平台上跑,涉及分布式系統會更多一點,演算法方面不多。

4、資料探勘工程師

這個崗位主要還是看公司,有些公司裡面可能做建模工作,有些公司做資料分析或者etl工作,所以面試的時候一定要問清楚。

5、資料分析工程師

從title也看出來主要是做資料統計分析的一些工作,老實說建模前很重要的乙個工作就是需要你對自己的資料有充分的理解,不過一般機器學習崗位可以做資料分析的工作,要不處理乙個問題分太多步著實麻煩。準備的話可以從比如r語言還有一些資料分析統計和視覺化角度入手。演算法方面的東西應該涉及不多。

6、etl工程師

這個崗位很多公司都需要,主要是做資料的前期處理,包括資料清洗,整理,校驗等等,很繁瑣,但是很重要。可以從sql等語言入手。

超級碼力機器學習崗位 面試題筆試題

超級碼力機器學習崗位 選拔筆試 第一題 1.用乙個你覺得效果最好的分類演算法 e.g.svm,rf,ann,etc.對test1的data進行classification建模,用5 fold crossvalidation來計算 的auc或f measure。若電腦計算能力不足可用3 fold。對於...

面試題 資料探勘型別的面試題

今天看到一道有趣的面試題,但是沒有分析出來結果,發出來大家一起看看,希望大家集思廣益得出乙個合理的答案。某 7月份共訪問使用者數4100人,已知訪問 有兩種登陸方式a 和b 使用a登陸的7月份總使用者數為2835,使用b方式登陸的7月份總使用者數為1400,既使用過a又使用過b登陸的7月份總使用者數...

機器學習面試題

答 設計乙個分類模型,首先要給它設定乙個學習目標。在支援向量機中,這個目標是max margin 在adaboost中,目標是優化乙個指數損失函式。那麼在logistic regression lr 中,這個目標是什麼呢?最大化條件似然度。考慮乙個二值分類問題,訓練資料是一堆 特徵,標記 組合,x1...