怎樣進行大資料的入門級學習

2021-08-22 10:05:24 字數 2917 閱讀 2516

學習大資料的話,可以給你乙個大綱,入門可以參考。

推薦乙個大資料學習群 119599574每天晚上20:10都有一節【免費的】大資料直播課程,專注大資料分析方法,大資料程式設計,大資料倉儲,大資料案例,人工智慧,資料探勘都是純乾貨分享,

一般的學習方法如下:

1、linux命令基礎實戰

大資料架構體系結構及開源元件介紹 (要掌握)

linux基本操作 (常見的linux命令需要會)

2:hadoop基礎

hadoop基礎,對hadoop架構、核心元件hdfs/yarn做了深入淺出的介紹,讓你快速把握hadoop的核心技術和工作原理,逐漸形成分布式思維;

hadoop介紹

hadoop執行模式

3:hadoop集群搭建

hadoop集群搭建——安裝linux虛擬機器

hadoop集群搭建——遠端連線

hadoop集群搭建(on linux)——hadoop(上)

hadoop集群搭建(on linux)——hadoop(下)

hadoop集群搭建(on mac)——hadoop

4:hdfs原理

番外篇-課程體系

hdfs架構原理

fs shell命令介紹及實踐

5:yarn工作原理

yarn的產生背景

yarn的設計思想

yarn的基本架構

yarn的工作流程(小結)

6:sqoop

sqoop,作為關係型資料庫與hadoop之間的橋梁,批量傳輸資料,讓你自然的從關係型資料庫過度到hadoop平台,在關係型資料庫與hadoop之間游刃有餘的進行資料匯入匯出;

sqoop & hive課程內容介紹

sqoop介紹與安裝

sqoop的基本使用

sqoop 匯入引數詳解

sqoop匯入實戰

sqoop增量匯入(上)

sqoop增量匯入(下)

sqoop匯出實戰(上)

sqoop匯出實戰(下)

sqoop job

7:hive

hive,基於hadoop大資料平台的資料倉儲,可以讓你實現傳統資料倉儲中的絕大部分資料處理、統計分析,讓你在hadoop大資料平台上感受到hive ql帶來的便利的互動式查詢體驗;mars將以日誌分析或其他示例帶大家熟練掌握hive的應用;

hive架構介紹(一)

hive架構介紹(二)

hive環境搭建(一)

hive環境搭建(二)

hive cli初探

beeline介紹

hive資料型別

hive表一——標準建表語句解析&內、外表

hive表二——檔案及資料格式

hive分割槽&桶&傾斜概念

hive表——alter

hive檢視&索引簡介

hive表——show & desc命令

hive資料匯入--load

hive資料匯入--insert

hive分割槽表實戰

hive複雜資料型別的巢狀例項

hive原始碼閱讀環境

hive執行原理

hive查詢優化

udf函式例項

hive終極例項——日誌分析

(1)**日誌分析的術語、架構介紹

(2)建表及資料準備

(3)資料處理及統計分析

(4)資料採集到統計分析結果的crontab定時排程

8:hbase

hbase,列式儲存資料庫,提供了快速的查詢方式,是apache kylin的預設資料儲存結果;

hbase介紹及架構

hbase安裝

hbase操作實戰

hive與hbase整合實戰

9:kylin

kylin,基於hadoop的olap分析引擎,在kylin中可以實現傳統olap的各種操作,直接讀取hive的資料或流式資料作為資料來源,把這些資料根據業務模型構建成cube,kylin提供了基於hadoop(mapreduce)的cube構建,build完成的cube資料直接儲存於hbase中。kylin提供了web ui供查詢,包括一些圖表展現,是基於大資料的完美olap工具;

維度建模

kylin背景及原理架構

kylin環境搭建

維度建模知識

kylin cube build步驟解析

kylin cube實戰

kylin 增量cube

kylin 優化

10:spark

spark,基於記憶體計算的大資料計算引擎,提供了spark sql、spark mllib(基於spark的機器學習)、sparkr等框架適應不同的應用需求,spark專題將和大家一起實踐操作各種應用和演算法;

spark集群搭建

spark core

spark wordcount(spark-shell/pyspark..)

idea intellij搭建spark開發環境

spark程式設計例項

spark sql及dataframe

spark sql例項

spark streaming

spark streaming例項

spark mllib

spark mllib應用例項

spark r介紹

可以基於每個模版去查一些相應的資料 及教程,然後按照操作即可。。。

怎樣進行大資料的入門級學習?

我認為從事data analytics或data science需要具備以下技能 programming hack 這個方面比較廣泛,並不是純粹指程式設計技能,要不然對於非cs的同學會覺得遙不可及。幾個點說一下 學習大資料的話,可以給你乙個大綱,入門可以參考。大資料的前景和意義也就不言而喻了,未來,...

怎樣進行大資料的入門級學習

一般的學習方法如下 1 linux命令基礎實戰 大資料架構體系結構及開源元件介紹 要掌握 linux基本操作 常見的linux命令需要會 2 hadoop基礎 hadoop基礎,對hadoop架構 核心元件hdfs yarn做了深入淺出的介紹,讓你快速把握hadoop的核心技術和工作原理,逐漸形成分...

怎樣進行大資料的入門級學習

一般的學習方法如下 1 linux命令基礎實戰 大資料架構體系結構及開源元件介紹 要掌握 linux基本操作 常見的linux命令需要會 2 hadoop基礎 hadoop基礎,對hadoop架構 核心元件hdfs yarn做了深入淺出的介紹,讓你快速把握hadoop的核心技術和工作原理,逐漸形成分...