超級碼力機器學習崗位
選拔筆試
第一題:
1.用乙個你覺得效果最好的分類演算法(e.g., svm,rf,ann,etc.)對test1的data進行classification建模,用5-fold crossvalidation來計算**的auc或f-measure。若電腦計算能力不足可用3-fold。對於有些本身就含有cross validation功能的演算法可以不用cross validation來穩定結果。(ps,對於非計算機系的同學,以python或r為例,各種分類演算法以及auc的計算都可以在網上找到對應參考**。)
2.把你認為這個演算法裡的最重要的兩個引數用網格優化(grid search)的方式進行優化,並把過程畫出來。輸出引數優化過程的三維圖(2個引數變數 + 5 or 3 fold的auc或者f-measure的值),示意圖如下。
3.提交的作業結果要求包含:
a)可直接執行的**(注意路徑)。
b)引數優化過程的結果圖。
c)乙個簡易說明文件。
第二題:
1.對test2的data進行association rule analysis,挖掘的rule要求具備如下條件:
機器學習 資料探勘 演算法崗位面試題彙總
幾個月前剛剛經歷校招,投的多是機器學習和演算法相關的崗位,特此分享面試中遇到及自己認為比較重要的內容 1 過擬合和欠擬合怎麼判斷,如何解決?答 主要可以通過訓練誤差和測試誤差入手判斷是否過擬合或欠擬合。一般而言訓練誤差很低,但是測試誤差較高,過擬合的概率較大,如果訓練誤差和測試誤差都很高,一般是欠擬...
機器學習面試題
答 設計乙個分類模型,首先要給它設定乙個學習目標。在支援向量機中,這個目標是max margin 在adaboost中,目標是優化乙個指數損失函式。那麼在logistic regression lr 中,這個目標是什麼呢?最大化條件似然度。考慮乙個二值分類問題,訓練資料是一堆 特徵,標記 組合,x1...
機器學習面試題目
過擬合原因 資料 資料不規範,資料量少,資料穿越,統計特徵用到了未來的資訊或者標籤資訊 演算法 演算法過於複雜 解決 1 將資料規範化,處理缺失值,增加資料量,取樣,新增雜訊資料 2 正則化,控制模型複雜程度,3 early stoping,減少迭代次數,減少樹的深度,4 學習率調大 小點 5 融合...