一面 20201111
一共有三面。
三個部分
照著簡歷敘述即可。會針對簡歷中所體現的他感興趣的部分提問。
問了python爬蟲使用的多嗎?
回答:是的。
問了sql使用的多嗎?
我說是自學的。
快手使用的明細資料表。
**樣式。
uid使用者
piddate
時間001
xyz20201030
001xyz
20201030
001abc
20201030
select count(distinct pid) , count(pid)
from `table1`
where uid='001'
and date='20201030';
select uid,count(distinct pid)
from `table1`
where date='20201030'
group by uid
order by count(distinct pid) desc
limit 0,10;
這道題我沒有做對。面試官告訴我有兩種方法可以做。
第一種是:同第2問,重複7次,並且union all連線起來。
第二種是:使用windows函式 row number() 函式。
select a.* from(
select upload_dt,author_id,count(distinct photo_id) ,row_number() over(partition by upload_dt order by (count(distinct photo_id)) desc) as rn
from ` photo_td`
where upload_dt between '2021-01-01' and '2021-01-07'
group by upload_dt,author_id
) awhere a.rn<=10
我回答的是:
叨叨記賬。
五個指標是:
我回答的是:
分為內部和外部兩大塊。
內部:外部:
1101是雙十一,人們可能傾向於攢錢衝購物節,所以會在1024-1030少花錢,少記賬。
大v的生產。
用的是hive。原始資料的提取都要通過sql提取,進行接下來的業務分析。
一共有三面。今天是一面業務面,還有一面業務面,還有最後是hr面。
這周。面試官人很好很和藹。
自我感覺不錯。期待二面。
反思:需要繼續熟悉sql。
刷題、unioin all 的使用、window function中的row number()的使用。
業務理解需要結合場景,再去準備業務面的時候需要著重準備。
秋招 快手 資料分析崗 面試題整理
1.不用任何公開參考資料,估算今年新生兒出生數量 1 採用兩層模型 人群畫像 人群轉化 新生兒出生數 各年齡層育齡女性數量 各年齡層生育比率 2 從數字到數字 如果有前幾年新生兒出生數量資料,建立時間序列模型 需要考慮到二胎放開的突變事件 進行 3 找先兆指標,如嬰兒類用品的新增活躍使用者數量x表示...
資料分析面試
整合學習思想 兩個流派 1 boosting 通過將弱學習器提公升為強學習器的整合方法來提高 的精度。典型演算法 adaboost gbdt 2 bagging 通過自動取樣的方法生成眾多並行式分類器,通過 少數服從多數 的原則來確定最終的結果。典型演算法 隨機森林 思想 一棵樹是決策樹,多棵樹就是...
遊戲運營的資料分析
這幾天一直在看如何展開資料分析文章,大家寫的都不錯,說實話,針對如何展開遊戲運營資料分析的指導真的非常少,作為每個公司的核心機密是不會拿到臺面上與大家分享的,一段時期我上網看了很多的材料,當顯示不能滿足需求的時候,就要靠我們自己來挖掘。以下是我的結合一些文章後自己總結的資料分析的方法。分割線 資料分...