附上我自己的答案,題目順序可能有誤,我記不太清楚了=_=
一、單選題(24分)
1.某超市研究銷售紀錄資料後發現,買啤酒的人很大概率也會購買尿布,這種屬於資料探勘的哪類問題?(a)
a. 關聯規則發現 b. 聚類
c. 分類 d. 自然語言處理
2.以下兩種描述分別對應哪兩種對分類演算法的評價標準?(a)
(a)警察抓小偷,描述警察抓的人中有多少個是小偷的標準。
(b)描述有多少比例的小偷給警察抓了的標準。
a. precision,recall b.recall,precision
a. precision,roc d. recall,roc
3.生成模型和判別模型的區分
判別模型:knn、logistic回歸、svm、
生成模型:貝葉斯、hmm
4.回歸樹用到的方法 :cart
5.考慮兩隊之間的足球比賽:隊0和隊1。假設65%的比賽隊0勝出,剩餘的比賽隊1獲勝。隊0獲勝的比賽中只有30%是在隊1的主場,而隊1取勝的比賽中75%是主場獲勝。如果下一場比賽在隊1的主場進行隊1獲勝的概率為 (d)
a.0.75 b.0.35 c.0.4678 d.0.5738
(這是牛客上的一道概率題)
6.在基本k均值演算法裡,當鄰近度函式採用( a )的時候,合適的質心是簇中各點的中位數。
a、曼哈頓距離 b、平方歐幾里德距離
c、余弦距離 d、bregman散度
(關於聚類的曼哈頓距離,產生的中心是中位數。)
二、多選題 (16分)
1.資料預處理的方法:
資料清洗、資料規約、資料整合、資料變換
2、 下面屬於維歸約常用的線性代數技術的有: (a c) 【這題我好像還選了b,誒誒誒】
a 主成分分析 b 特徵提取
c 奇異值分解 d 特徵加權 e 離散化
3、( cd )都屬於簇有效性的監督度量。
a、輪廓係數 b、共性分類相關係數
c、熵 d、f度量
4.( abcd )這些資料特性都是對聚類分析具有很強影響的。
a、高維性 b、規模 c、稀疏性 d、雜訊和離群點
三、簡單題(20分*3)
1. 1)考了sql ,乙個很常見的sql查詢(所有分數大於80的學生姓名)
2)考了聯結
3) not in 和 not exists 的區別
4) hive 資料傾斜 的現象及優化方案
2.xgboost為何泰勒展開,優勢是啥?如何優化特徵?有放回還是無放回的取樣?
3.神經網路中的overfitting如何解決?(過擬合)
總的來說,考的很常規很基礎,沒有程式設計題,從筆試題目來看,yy好像會比較重視常規聚類分類,面試估計也會問到。為秋招攢人品=_=
歡聚時代一面
前天跟班裡幾個同學到歡聚時代參加筆試,本來抱著試一試的心態,結果第二天就收到了一面通知,問了一下同去的那幾個同學都說沒有收到。周一我10 10分趕到華工大酒店,我是10 30分那批的,簽好到後就在座位上耐心的等,結果都11 15分了還沒叫我名字,只好到前台問一下是否叫過了我沒聽到 其實本意就是想催一...
歡聚時代一面
前天跟班裡幾個同學到歡聚時代參加筆試。本來抱著試一試的心態,結果第二天就收到了一面通知。問了一下同去的那幾個同學都說沒有收到。周一我10 10分趕到華工大酒店,我是10 30分那批的,簽好到後就在座位上耐心的等。結果都11 15分了還沒叫我名字。僅僅好到前台問一下是否叫過了我沒聽到 事實上本意就是想...
歡聚時代多玩YYJava實習經歷
流程管理完善,職能部門完善。寬敞整潔的辦公環境。工作自由,完成任務即可。沒有監控,可自由選擇開發工具和環境 我自己電腦裝了ubuntu 我的辦公電腦配置 i5 16g 1t ubuntu,配雙顯示器,鍵盤滑鼠,耳機的質量也過得去。網路自由,google,youtube所有被牆 都可以訪問。接觸到的新...