1. 不用任何公開參考資料,估算今年新生兒出生數量
1)採用兩層模型(人群畫像*人群轉化):新生兒出生數=σ各年齡層育齡女性數量*各年齡層生育比率
2)從數字到數字:如果有前幾年新生兒出生數量資料,建立時間序列模型(需要考慮到二胎放開的突變事件)進行**
3)找先兆指標,如嬰兒類用品的新增活躍使用者數量x表示新生兒家庭使用者。xn/新生兒n為該年新生兒家庭使用者的轉化率,如x2007/新生兒2007位為2023年新生兒家庭使用者的轉化率。該轉化率會隨平台發展而發展,可以根據往年數量推出今年的大致轉化率,並根據今年新增新生兒家庭使用者數量推出今年估計的新生兒數量。
(一般面試中採用1的方法,即費公尺估計問題,可以參考《這也能想到?——巧妙解答無厘頭問題》)
2. 給你乙個無序陣列,怎麼才能合理取樣?
無序陣列是相對有序陣列而言的,無序陣列並不等於隨機,我們要做的是將無序陣列洗牌,得到隨機排列。
對於無序陣列,n個元素能產生n!種排序。如果洗牌演算法能產生n!種不同的結果,並且這些結果產生的概率相等,那麼這個洗牌演算法是正確的。
方法:for i in range(len(n)): swap(arr[i], arr[random(i,n)])
這段**是對隨機確定陣列第一位的值,然後遞迴對剩餘的陣列進行相同的過程,可以產生n!中等可能的排序情況。
(參考資料:
3. 撲克牌54張,平均分成2份,求這2份都有2張a的概率
m表示兩個牌堆各有2個a的情況:m=4*(25!*25!)
n表示兩個牌堆完全隨機的情況:n=27!*27!
所以概率為:m/n = 9*26/53*17
秋招 攜程 資料分析崗 面試題整理
1.spark用過嗎?那你覺得和mr這兩個計算框架中間產生的資料傾斜怎麼處理 1 資料傾斜指的是key的分布嚴重不均,如wordcount中,有80 的資料都是 aaa 1 這樣大部分資料交給乙個reduce,剩下的20 資料分散到不同的reduce處理 2 造成資料傾斜的原因 a.group by...
秋招 搜狐遊戲 資料分析崗 面試題整理
1.如果現在有個情景,我們有一款遊戲收入下降了,你怎麼分析。我說完她說不到位,然後幫我補充了很多,我也問了一點問題,這部分聊了十分鐘 1 兩層模型 細分使用者 渠道 產品,看到底是 的收入下降了 2 指標拆解 收入 玩家數量 活躍佔比 付費轉化率 付費次數 客單價 進一步細分,如玩家數量 老玩家數量...
實習 資料分析崗 試題整理
1 增加資料 2 正則項 3 early stopping 4 控制模型複雜度 a.dropout 我覺得類似於subfeature b.剪枝 控制樹深 c.增大分割平面間隔 5 bagging 6 subsampe subfeature 7 特徵選擇 特徵降維 8 資料增強 加包含雜訊的資料 9 ...