歡聚時代 YY 2018筆試總結(資料探勘方向)

2021-08-28 03:28:50 字數 1645 閱讀 9521

附上我自己的答案,題目順序可能有誤,我記不太清楚了=_=

一、單選題(24分)

1.某超市研究銷售紀錄資料後發現,買啤酒的人很大概率也會購買尿布,這種屬於資料探勘的哪類問題?(a)

a. 關聯規則發現       b. 聚類

c. 分類                      d. 自然語言處理

2.以下兩種描述分別對應哪兩種對分類演算法的評價標準?(a)

(a)警察抓小偷,描述警察抓的人中有多少個是小偷的標準。

(b)描述有多少比例的小偷給警察抓了的標準。

a. precision,recall    b.recall,precision

a. precision,roc      d. recall,roc

3.生成模型和判別模型的區分

判別模型:knn、logistic回歸、svm、

生成模型:貝葉斯、hmm

4.回歸樹用到的方法 :cart

5.考慮兩隊之間的足球比賽:隊0和隊1。假設65%的比賽隊0勝出,剩餘的比賽隊1獲勝。隊0獲勝的比賽中只有30%是在隊1的主場,而隊1取勝的比賽中75%是主場獲勝。如果下一場比賽在隊1的主場進行隊1獲勝的概率為 (d)

a.0.75    b.0.35    c.0.4678    d.0.5738

(這是牛客上的一道概率題)

6.在基本k均值演算法裡,當鄰近度函式採用( a )的時候,合適的質心是簇中各點的中位數。

a、曼哈頓距離                           b、平方歐幾里德距離

c、余弦距離                              d、bregman散度

(關於聚類的曼哈頓距離,產生的中心是中位數。)

二、多選題 (16分)

1.資料預處理的方法:

資料清洗、資料規約、資料整合、資料變換

2、 下面屬於維歸約常用的線性代數技術的有: (a c) 【這題我好像還選了b,誒誒誒】

a 主成分分析                 b 特徵提取

c 奇異值分解                d 特徵加權                  e 離散化

3、( cd )都屬於簇有效性的監督度量。

a、輪廓係數                    b、共性分類相關係數

c、熵                               d、f度量

4.( abcd )這些資料特性都是對聚類分析具有很強影響的。

a、高維性         b、規模              c、稀疏性                d、雜訊和離群點

三、簡單題(20分*3)

1. 1)考了sql ,乙個很常見的sql查詢(所有分數大於80的學生姓名)

2)考了聯結

3) not in 和 not exists 的區別

4) hive 資料傾斜 的現象及優化方案

2.xgboost為何泰勒展開,優勢是啥?如何優化特徵?有放回還是無放回的取樣?

3.神經網路中的overfitting如何解決?(過擬合)

總的來說,考的很常規很基礎,沒有程式設計題,從筆試題目來看,yy好像會比較重視常規聚類分類,面試估計也會問到。為秋招攢人品=_=

歡聚時代一面

前天跟班裡幾個同學到歡聚時代參加筆試,本來抱著試一試的心態,結果第二天就收到了一面通知,問了一下同去的那幾個同學都說沒有收到。周一我10 10分趕到華工大酒店,我是10 30分那批的,簽好到後就在座位上耐心的等,結果都11 15分了還沒叫我名字,只好到前台問一下是否叫過了我沒聽到 其實本意就是想催一...

歡聚時代一面

前天跟班裡幾個同學到歡聚時代參加筆試。本來抱著試一試的心態,結果第二天就收到了一面通知。問了一下同去的那幾個同學都說沒有收到。周一我10 10分趕到華工大酒店,我是10 30分那批的,簽好到後就在座位上耐心的等。結果都11 15分了還沒叫我名字。僅僅好到前台問一下是否叫過了我沒聽到 事實上本意就是想...

歡聚時代多玩YYJava實習經歷

流程管理完善,職能部門完善。寬敞整潔的辦公環境。工作自由,完成任務即可。沒有監控,可自由選擇開發工具和環境 我自己電腦裝了ubuntu 我的辦公電腦配置 i5 16g 1t ubuntu,配雙顯示器,鍵盤滑鼠,耳機的質量也過得去。網路自由,google,youtube所有被牆 都可以訪問。接觸到的新...