2013網易實習生資料探勘工程師

2021-06-20 01:15:03 字數 1025 閱讀 6494

2013網易實習生招聘 崗位:資料探勘工程師 

一、問答題 

a) 欠擬合和過擬合的原因分別有哪些?如何避免? 

b) 決策樹的父節點和子節點的熵的大小?請解釋原因。 c) 衡量分類演算法的準確率,召回率,f1值。 

d) 舉例序列模式挖掘演算法有哪些?以及他們的應用場景。 

二、計算題 

1) 給你一組向量a,b 

a) 計算二者歐氏距離 b) 計算二者曼哈頓距離 2) 給你一組向量a,b,c,d 

a) 計算a,b的jaccard相似係數 b) 計算c,d的向量空間余弦相似度 c) 計算c、d的皮爾森相關係數 

三、(題目記得不是很清楚) 

乙個文件-詞矩陣,給你乙個變換公式tfij』=tfij*log(m/dfi);其中tfij代表單詞i在文件f中的頻率,m代表文件數,dfi含有單詞i的文件頻率。 

1) 只有乙個單詞只存在文件中,轉換的結果?(具體問題忘記) 2) 有多個單詞存在在多個文件中,轉換的結果?(具體問題忘記) 3) 公式變換的目的? 

四、推導樸素貝葉斯分類p(c|d),文件d(由若干word組成),求該文件屬於類別c的概率,

並說明公式中哪些概率可以利用訓練集計算得到。 

五、給你五張人臉。 

可以抽取哪些特徵?按照列出的特徵,寫出第乙個和最後乙個使用者的特徵向量。 

六、考查id3演算法,根據天氣分類outlook/temperature/humidity/windy。(給你一張離散型

的圖表資料,一般學過id3的應該都知道) a) 哪乙個屬性作為第乙個分類屬性? b) 畫出二層決策樹。

七、購物籃事物(關聯規則) 

乙個**:事物id/購買項。 

1) 提取出關聯規則的最大數量是多少?(包括0支援度的規則) 2) 提取的頻繁項集的最大長度(最小支援》0) 3) 找出能提取出4-項集的最大數量表示式 

4) 找出乙個具有最大支援度的項集(長度為2或更大) 5) 找出一對項a,b,使得->和->有相同置信度。 

統(線下資料處理,存放,線上如何查詢?) 

2013網易實習生招聘 崗位 資料探勘工程師

2013網易實習生招聘 崗位 資料探勘工程師 一 問答題 a 欠擬合和過擬合的原因分別有哪些?如何避免?欠擬合 模型過於簡單 過擬合 模型過於複雜,且訓練資料太少。b 決策樹的父節點和子節點的熵的大小?請解釋原因。父節點的熵 子節點的熵 c 衡量分類演算法的準確率,召回率,f1值。d 舉例序列模式挖...

2018網易PM599(實習生)記錄

三選二 1.忘記了,待查 3.分析計畫生育對社會經濟的短期和長期影響。必答 1.談一談對雲計算的理解。1 在網際網路領域,為什麼說雲計算 大資料以及人工智慧是網際網路發展的未來。2 談一談雲計算解決了軟體的什麼問題。2.1 在實習過程或者幫導師完成參與專案的過程中,利用什麼程式語言進行開發。如何保證...

2019 網易實習生筆試題目解答

牛牛去犇犇老師家補課,出門的時候面向北方,但是現在他迷路了。雖然他手裡有一張地圖,但是他需要知道自己面向哪個方向,請你幫幫他。輸入描述 每個輸入包含乙個測試用例。每個測試用例的第一行包含乙個正整數,表示轉方向的次數n n 1000 接下來的一行包含乙個長度為n的字串,由l和r組成,l表示向左轉,r表...