整合學習思想:
兩個流派:
1、boosting
通過將弱學習器提公升為強學習器的整合方法來提高**的精度。
典型演算法:adaboost、gbdt
2、bagging
通過自動取樣的方法生成眾多並行式分類器,通過「少數服從多數」的原則來確定最終的結果。
典型演算法:隨機森林
思想:一棵樹是決策樹,多棵樹就是隨機森林,解決了決策樹泛化能力弱的缺點。
隨機:隨機選擇樣本、隨機選擇特徵
整合學習:投票機制
gbdt概念:
gbdt由3部分組成,dt(regression decistion tree)、gb(gradient boosting)和shrinkage(衰減)。
由多棵決策樹組成,所有樹的結果累加起來就是最終結果。
gbdt的思想:就是不斷去擬合殘差,使引數不斷減少。
資料分析面試總結
data node mapreduce 分布式計算 mapreduce流程 mrjob yarn 資源排程協調 第三正規化 不存在屬性對主鍵的傳遞依賴 永續性事務執行成功後,該事務對資料庫的更改是持久儲存在資料庫中的 快排思想 用到了分治思想,和分治演算法一樣為了進行排序需要先對其劃分的子區間進行排...
資料分析崗位面試必備
資料分析遵循一定的流程,不僅可以保證資料分析每乙個階段的工作內容有章可循,而且還可以讓分析最終的結果更加準確,更加有說服力。一般情況下,資料分析分為以下幾個步驟 包括特徵提取 特徵構建 特徵選擇。特徵工程的目的是篩選出更好的特徵,獲取更好的訓練資料。因為好的特徵具有更強的靈活性,可以用簡單的模型做訓...
資料分析 資料分析概述
了解業務 了解資料 確認業務和資料 預期分析和管理 資料分析方式01.了解資料資料 1.測量標度型別 屬性本源並不是數字或者符號,通過測量標度將數值或者符號和物件的屬性建立關聯。屬性的型別 測量尺度 nominal 標稱 等於或者不等於 一對一的變換 ordinal 序數 大於或者小於 單調函式的變...