資料分析面試

2021-10-21 02:23:44 字數 540 閱讀 5363

整合學習思想:

兩個流派:

1、boosting

通過將弱學習器提公升為強學習器的整合方法來提高**的精度。

典型演算法:adaboost、gbdt

2、bagging

通過自動取樣的方法生成眾多並行式分類器,通過「少數服從多數」的原則來確定最終的結果。

典型演算法:隨機森林

思想:一棵樹是決策樹,多棵樹就是隨機森林,解決了決策樹泛化能力弱的缺點。

隨機:隨機選擇樣本、隨機選擇特徵

整合學習:投票機制

gbdt概念:

gbdt由3部分組成,dt(regression decistion tree)、gb(gradient boosting)和shrinkage(衰減)。

由多棵決策樹組成,所有樹的結果累加起來就是最終結果。

gbdt的思想:就是不斷去擬合殘差,使引數不斷減少。

資料分析面試總結

data node mapreduce 分布式計算 mapreduce流程 mrjob yarn 資源排程協調 第三正規化 不存在屬性對主鍵的傳遞依賴 永續性事務執行成功後,該事務對資料庫的更改是持久儲存在資料庫中的 快排思想 用到了分治思想,和分治演算法一樣為了進行排序需要先對其劃分的子區間進行排...

資料分析崗位面試必備

資料分析遵循一定的流程,不僅可以保證資料分析每乙個階段的工作內容有章可循,而且還可以讓分析最終的結果更加準確,更加有說服力。一般情況下,資料分析分為以下幾個步驟 包括特徵提取 特徵構建 特徵選擇。特徵工程的目的是篩選出更好的特徵,獲取更好的訓練資料。因為好的特徵具有更強的靈活性,可以用簡單的模型做訓...

資料分析 資料分析概述

了解業務 了解資料 確認業務和資料 預期分析和管理 資料分析方式01.了解資料資料 1.測量標度型別 屬性本源並不是數字或者符號,通過測量標度將數值或者符號和物件的屬性建立關聯。屬性的型別 測量尺度 nominal 標稱 等於或者不等於 一對一的變換 ordinal 序數 大於或者小於 單調函式的變...