資料分析面試總結

2021-10-25 07:14:22 字數 796 閱讀 6955

data node

mapreduce 分布式計算

mapreduce流程

mrjob

yarn 資源排程協調

第三正規化:不存在屬性對主鍵的傳遞依賴

永續性事務執行成功後,該事務對資料庫的更改是持久儲存在資料庫中的

快排思想:用到了分治思想,和分治演算法一樣為了進行排序需要先對其劃分的子區間進行排序

快排複雜度

平均複雜度:o(nlogn)

最壞複雜度:o(n2 )

不同:

相同:鏈式位址法(hashmap的雜湊衝突解決方法)

對於相同的值,使用鍊錶進行連線。使用陣列儲存每乙個鍊錶。

在用拉鍊法構造的雜湊表中,刪除結點的操作易於實現。只要簡單地刪去鍊錶上相應的結點即可。

缺點:指標占用較大空間時,會造成空間浪費,若空間用於增大雜湊表規模進而提高開放位址法的效率。

建立公共溢位區

建立公共溢位區儲存所有雜湊衝突的資料。

再雜湊法

對於衝突的雜湊值再次進行雜湊處理,直至沒有雜湊衝突。

資料分析面試

整合學習思想 兩個流派 1 boosting 通過將弱學習器提公升為強學習器的整合方法來提高 的精度。典型演算法 adaboost gbdt 2 bagging 通過自動取樣的方法生成眾多並行式分類器,通過 少數服從多數 的原則來確定最終的結果。典型演算法 隨機森林 思想 一棵樹是決策樹,多棵樹就是...

蓋亞遊戲資料分析面試總結

1 自我介紹 2 關於電信使用者的資料 方面,介紹具體的演算法是怎麼進行的。那麼如何進一步提高精度?我答可以用xgboost 3 如果給出一組遊戲類的歷史資料,arppu等資料呢?我回答的是arima模型,後來面試官提出prophet。可以提取趨勢 週期性 節假日等。facebook的開源包。4 對...

資料分析模型總結

1.邏輯回歸 from sklearn.linear model import logisticregression clf logisticregression penalty l1 solver saga tol 0.1,c 0.1,random state 0 clf.fit x train ...