職業要求:
大資料概述
大資料處理架構hadoop
分布式檔案系統hdfs
分布式資料庫hbase
nosql資料庫
雲資料庫
mapreduce
基於hadoop的資料倉儲hive
hadoop架構再**
spark
流計算圖計算
大資料在不同領域的應用
666666
大資料技術概述
spark的設計與執行原理
spark環境搭建和使用方法
rdd程式設計基礎
spark sql
spark streaming
structured streaming
spark mllib
大資料應用開發 大資料的概念
維基百科定義 大資料是指利用常用軟體工具捕獲,管理和處理資料所耗時間超過可容忍時間的資料集。flume可以進行流式日誌資料的收集 sqoop可以互動關係型資料庫,進行匯入匯出資料 使用爬蟲技術,可以在網上爬取海量網頁資料 1.1 概念 離線批處理,是指對海量歷史資料進處理和分析,生成結果資料,供下一...
大資料開發之路 3
之前記錄了大資料開發環境的部署過程,下面就可以介紹大資料開發工具的一些工作機制和工作原理。今天首先介紹大資料開發中大家耳熟能詳的工具 hadoop。hadoop作為乙個最早開始流行的大資料開發工具,它能夠做些什麼呢?當然要看大資料開發需要幹什麼,簡單來講大資料主要做兩件事情,一是海量資料的儲存,二是...
大資料開發實戰 Stream SQL實時開發一
流計算sql通常是乙個類sql的宣告式語言,主要用於對流式資料 streams 的持續性查詢,目的是在常見流計算平台和框架 如storm spark streaming flink beam等 的底層api上,通過使用簡易通用的的sql語言構建sql抽象層,降低實時開發的門檻。流計算sql的原理其實...