怎樣進行大資料的入門級學習？

我認為從事data analytics或data science需要具備以下技能：

programming (hack)

這個方面比較廣泛，並不是純粹指程式設計技能，要不然對於非cs的同學會覺得遙不可及。幾個點說一下：

學習大資料的話，可以給你乙個大綱，入門可以參考。

大資料的前景和意義也就不言而喻了，未來，大資料能夠對大量、動態、能持續的資料，通過運用新系統、新

工具、新模型的挖掘，從而獲得具有洞察力和新價值的東西。源於網際網路的發展，收集資料的門檻越來越低，

收集資料變成一件簡單的事情，這些海量的資料中是含有無窮的資訊和價值的，如何更好的提煉出有價值的信

息，這就體現大資料的用途了。

網際網路科技發展蓬勃興起，人工智慧時代來臨，抓住下乙個風口。為幫助那些往想網際網路方向轉行想學習，卻

因為時間不夠，資源不足而放棄的人。我自己整理的乙份最新的大資料高階資料和高階開發教程，大資料學習

群：199加上最後加上210就可以找到組織學習歡迎高階中和進想深入大資料的小夥伴加入。

一般的學習方法如下：

1、linux命令基礎實戰

大資料架構體系結構及開源元件介紹（要掌握）

linux基本操作（常見的linux命令需要會）

2：hadoop基礎

hadoop基礎，對hadoop架構、核心元件hdfs/yarn做了深入淺出的介紹，讓你快速把握hadoop的核心技術和工作原理，逐漸形成分布式思維；

hadoop介紹

hadoop執行模式

3：hadoop集群搭建

hadoop集群搭建——安裝linux虛擬機器

hadoop集群搭建——遠端連線

hadoop集群搭建(on linux)——hadoop(上）

hadoop集群搭建(on linux)——hadoop（下）

hadoop集群搭建(on mac)——hadoop

4：hdfs原理

番外篇-課程體系

hdfs架構原理

fs shell命令介紹及實踐

5：yarn工作原理

yarn的產生背景

yarn的設計思想

yarn的基本架構

yarn的工作流程(小結)

6：sqoop

sqoop，作為關係型資料庫與hadoop之間的橋梁，批量傳輸資料，讓你自然的從關係型資料庫過度到hadoop平台，在關係型資料庫與hadoop之間游刃有餘的進行資料匯入匯出；

sqoop & hive課程內容介紹

sqoop介紹與安裝

sqoop的基本使用

sqoop 匯入引數詳解

sqoop匯入實戰

sqoop增量匯入（上）

sqoop增量匯入（下）

sqoop匯出實戰（上）

sqoop匯出實戰（下）

sqoop job

7：hive

hive，基於hadoop大資料平台的資料倉儲，可以讓你實現傳統資料倉儲中的絕大部分資料處理、統計分析，讓你在hadoop大資料平台上感受到hive ql帶來的便利的互動式查詢體驗；mars將以日誌分析或其他示例帶大家熟練掌握hive的應用；

hive架構介紹（一）

hive架構介紹（二）

hive環境搭建（一）

hive環境搭建（二）

hive cli初探

beeline介紹

hive資料型別

hive表一——標準建表語句解析&內、外表

hive表二——檔案及資料格式

hive分割槽&桶&傾斜概念

hive表——alter

hive檢視&索引簡介

hive表——show & desc命令

hive資料匯入--load

hive資料匯入--insert

hive分割槽表實戰

hive複雜資料型別的巢狀例項

hive原始碼閱讀環境

hive執行原理

hive查詢優化

udf函式例項

hive終極例項——日誌分析

（1）**日誌分析的術語、架構介紹

（2）建表及資料準備

（3）資料處理及統計分析

（4）資料採集到統計分析結果的crontab定時排程

8：hbase

hbase，列式儲存資料庫，提供了快速的查詢方式，是apache kylin的預設資料儲存結果；

hbase介紹及架構

hbase安裝

hbase操作實戰

hive與hbase整合實戰

9：kylin

kylin，基於hadoop的olap分析引擎，在kylin中可以實現傳統olap的各種操作，直接讀取hive的資料或流式資料作為資料來源，把這些資料根據業務模型構建成cube，kylin提供了基於hadoop（mapreduce）的cube構建，build完成的cube資料直接儲存於hbase中。kylin提供了web ui供查詢，包括一些圖表展現，是基於大資料的完美olap工具；

維度建模

kylin背景及原理架構

kylin環境搭建

維度建模知識

kylin cube build步驟解析

kylin cube實戰

kylin 增量cube

kylin 優化

10：spark

spark，基於記憶體計算的大資料計算引擎，提供了spark sql、spark mllib(基於spark的機器學習）、sparkr等框架適應不同的應用需求，spark專題將和大家一起實踐操作各種應用和演算法；

spark集群搭建

spark core

spark wordcount（spark-shell/pyspark..）

idea intellij搭建spark開發環境

spark程式設計例項

spark sql及dataframe

spark sql例項

spark streaming

spark streaming例項

spark mllib

spark mllib應用例項

spark r介紹

可以基於每個模版去查一些相應的資料及教程，然後按照操作即可。。。

怎樣進行大資料的入門級學習？

怎樣進行大資料的入門級學習

怎樣進行大資料的入門級學習

怎樣進行大資料的入門級學習

相關推薦