資料科學職位的典型面試過程會有很多輪,其中通常會涉及理論概念,目的是確定應聘者是否了解機器學習的基礎知識。
在這篇文章中,我想總結一下我所有的面試經歷(面試or被面試)並提出了160多個資料科學理論問題的清單。
其中包括以下主題:
開始吧!
以上!希望它對各位有用,祝面試愉快!
原文:alexey grigorev(lead data scientist at olx group)
翻譯:tjxj666
機器學習面試題
答 設計乙個分類模型,首先要給它設定乙個學習目標。在支援向量機中,這個目標是max margin 在adaboost中,目標是優化乙個指數損失函式。那麼在logistic regression lr 中,這個目標是什麼呢?最大化條件似然度。考慮乙個二值分類問題,訓練資料是一堆 特徵,標記 組合,x1...
機器學習面試題目
過擬合原因 資料 資料不規範,資料量少,資料穿越,統計特徵用到了未來的資訊或者標籤資訊 演算法 演算法過於複雜 解決 1 將資料規範化,處理缺失值,增加資料量,取樣,新增雜訊資料 2 正則化,控制模型複雜程度,3 early stoping,減少迭代次數,減少樹的深度,4 學習率調大 小點 5 融合...
機器學習面試題 XGBoost
相同點 不同點 先說說lrlr lr和g bd tgbdt gbdt 的區別 當在高維稀疏特徵的場景下,lrlr lr的效果一般會比gbd tgbdt gbdt 好。原因如下 先看乙個例子 假設乙個二分類問題,label為0和1,特徵有100維,如果有1w個樣本,但其中只要10個正樣本1,而這些樣本...