2013網易實習生招聘 崗位 資料探勘工程師

2021-06-25 07:01:58 字數 2421 閱讀 3987

2013網易實習生招聘 崗位:資料探勘工程師

一、問答題 

a) 欠擬合和過擬合的原因分別有哪些?如何避免?

欠擬合:模型過於簡單;過擬合:模型過於複雜,且訓練資料太少。

b) 決策樹的父節點和子節點的熵的大小?請解釋原因。 

父節點的熵》子節點的熵

c) 衡量分類演算法的準確率,召回率,f1值。

d) 舉例序列模式挖掘演算法有哪些?以及他們的應用場景。

dtw(動態事件規整演算法):語音識別領域,判斷兩端序列是否是同乙個單詞。

holt-winters(三次指數平滑法):對時間序列進行**。時間序列的趨勢、季節性。

apriori

generalized sequential pattern(廣義序貫模式)

prefixspan

二、計算題

1) 給你一組向量a,b 

a) 計算二者歐氏距離 

(a-b)(a-b)t

即:

b) 計算二者曼哈頓距離

2) 給你一組向量a,b,c,d

a) 計算a,b的jaccard相似係數

b) 計算c,d的向量空間余弦相似度

c) 計算c、d的皮爾森相關係數

即線性相關係數。

或者

三、(題目記得不是很清楚) 

乙個文件-詞矩陣,給你乙個變換公式tfij』=tfij*log(m/dfi);其中tfij代表單詞i在文件f中的頻率,m代表文件數,dfi含有單詞i的文件頻率。 

1) 只有乙個單詞只存在文件中,轉換的結果?(具體問題忘記) 

2) 有多個單詞存在在多個文件中,轉換的結果?(具體問題忘記) 

3) 公式變換的目的?

四、推導樸素貝葉斯分類p(c|d),文件d(由若干word組成),求該文件屬於類別c的概率,

並說明公式中哪些概率可以利用訓練集計算得到。

五、給你五張人臉。 

可以抽取哪些特徵?按照列出的特徵,寫出第乙個和最後乙個使用者的特徵向量。

六、考查id3演算法,根據天氣分類outlook/temperature/humidity/windy。(給你一張離散型

的圖表資料,一般學過id3的應該都知道) 

a) 哪乙個屬性作為第乙個分類屬性? 

b) 畫出二層決策樹。 

七、購物籃事物(關聯規則) 

乙個**:事物id/購買項。 

1) 提取出關聯規則的最大數量是多少?(包括0支援度的規則)

2) 提取的頻繁項集的最大長度(最小支援》0) 

3) 找出能提取出4-項集的最大數量表示式 

4) 找出乙個具有最大支援度的項集(長度為2或更大) 

5) 找出一對項a,b,使得->和->有相同置信度。

八、乙個發布優惠劵的**,如何給使用者做出合適的推薦?有哪些方法?設計乙個合適的系

統(線下資料處理,存放,線上如何查詢?)

《程式設計珠璣》;(這本書很經典,但是難度相對較大,建議先看程式設計之美和劍指offer,然後在讀這本)

秒殺99%的海量資料處理面試題

《cracking the coding interview: 150 programming questions and solutions》,順便貼個此本書的題解:且其中文版《程式設計師面試金典》即將由圖靈教育出版社出版;

it筆試面試**:

2013網易實習生資料探勘工程師

2013網易實習生招聘 崗位 資料探勘工程師 一 問答題 a 欠擬合和過擬合的原因分別有哪些?如何避免?b 決策樹的父節點和子節點的熵的大小?請解釋原因。c 衡量分類演算法的準確率,召回率,f1值。d 舉例序列模式挖掘演算法有哪些?以及他們的應用場景。二 計算題 1 給你一組向量a,b a 計算二者...

2018網易遊戲雷火盤古實習生招聘筆試真題

1.字串編碼 輸入描述 每個測試輸入包含1個測試用例 每個測試用例輸入只有一行字串,字串只包括大寫英文本母,長度不超過10000。輸出描述 輸出編碼後的字串 輸入例子 aaaabccdaa 輸出例子 4a1b2c1d2a 思路分析 這道題好像以前是一家企業的面試題,leetcode easy級別,思...

2017網易遊戲雷火盤古實習生招聘筆試真題

1.給定乙個字串,請你將字串重新編碼,將連續的字元替換成 連續出現的個數 字元 比如字串aaaabccdaa會被編碼成4a1b2c1d2a。include include char s 10004 int main tem s i cot 1 else cot printf d c cot,tem ...