data node
mapreduce 分布式計算
mapreduce流程
mrjob
yarn 資源排程協調
第三正規化:不存在屬性對主鍵的傳遞依賴
永續性事務執行成功後,該事務對資料庫的更改是持久儲存在資料庫中的
快排思想:用到了分治思想,和分治演算法一樣為了進行排序需要先對其劃分的子區間進行排序。
快排複雜度:
平均複雜度:o(nlogn)
最壞複雜度:o(n2 )
不同:
相同:鏈式位址法(hashmap的雜湊衝突解決方法)
對於相同的值,使用鍊錶進行連線。使用陣列儲存每乙個鍊錶。
在用拉鍊法構造的雜湊表中,刪除結點的操作易於實現。只要簡單地刪去鍊錶上相應的結點即可。
缺點:指標占用較大空間時,會造成空間浪費,若空間用於增大雜湊表規模進而提高開放位址法的效率。
建立公共溢位區
建立公共溢位區儲存所有雜湊衝突的資料。
再雜湊法
對於衝突的雜湊值再次進行雜湊處理,直至沒有雜湊衝突。
資料分析面試
整合學習思想 兩個流派 1 boosting 通過將弱學習器提公升為強學習器的整合方法來提高 的精度。典型演算法 adaboost gbdt 2 bagging 通過自動取樣的方法生成眾多並行式分類器,通過 少數服從多數 的原則來確定最終的結果。典型演算法 隨機森林 思想 一棵樹是決策樹,多棵樹就是...
蓋亞遊戲資料分析面試總結
1 自我介紹 2 關於電信使用者的資料 方面,介紹具體的演算法是怎麼進行的。那麼如何進一步提高精度?我答可以用xgboost 3 如果給出一組遊戲類的歷史資料,arppu等資料呢?我回答的是arima模型,後來面試官提出prophet。可以提取趨勢 週期性 節假日等。facebook的開源包。4 對...
資料分析模型總結
1.邏輯回歸 from sklearn.linear model import logisticregression clf logisticregression penalty l1 solver saga tol 0.1,c 0.1,random state 0 clf.fit x train ...