如果沒有乙個好的開始,不妨試試乙個壞的開始吧。因為乙個壞的開始,總比沒有開始強。而完美的開始,則永遠都不會來到。
資料採集傳輸主要技術
分為兩類,一類是離線批處理、另一類是實時資料採集和傳輸
離線批處理最有名的是sqoop、實時資料採集和傳輸最為常用的是flume和kafka
sqoop:一款開源的離線資料傳輸工具,主要用於hadoop(hive)與傳統資料庫(mysql、oracle)之間資料傳遞。
flume:實時日誌採集平台,乙個高可用、高可靠、分布式的海量日誌採集、聚合和傳輸的系統。
在這裡相信有許多想要學習大資料的同學,大家可以+下大資料學習裙: 740041381,即可免費領取套系統的大資料學習教程kafka:通常來說flume採集資料的速度與下游處理資料通常不同步,因此實時平台架構都會用乙個訊息中介軟體進行緩衝,這方面使用最廣泛的無疑是kafka,kafka是乙個分布式訊息系統,以其可以水平擴充套件和高吞吐率而被廣泛使用,是基於訊息發布-訂閱系統。和kafka類似的訊息中介軟體產品還包括rabbitmq、activemq、zeromq等
資料處理主要技術
mapreduce:執行與大規模集群上的複雜平行計算過程高度抽象為兩個函式:map和reduce。
hive:是乙個建立在hadoop體系結構上的一層sql抽象
spark:具有可伸縮、基於記憶體計算等特點,可以讀寫hadoop上任何格式的資料。
strom:實時資料處理框架,擁有低延遲、分布式、可擴充套件、高容錯等特徵,可以保證訊息不丟(diu)失。
flink:是乙個同時面向分布式實時流處理和批量資料處理的開源計算平台,它能夠基於同乙個flink執行時提供支援流處理和批處理兩種型別應用的功能。
beam:在flink基礎上更進一步,不但希望統一批處理和流處理,而且希望統一大資料處理正規化和標準。
資料儲存主要技術
hdfs:分布式檔案系統。
hbase:構建在hdfs之上的分布式、面向列族的儲存系統,在需要實時讀寫並隨機訪問超大規模資料集等場景下,hbase目前是市場上主流的技術選擇。
資料應用技術
drill:實時大資料分布式查詢引擎,drill相容ansi sql語法作為介面,支撐對本地檔案、hdfs、hive、hbase、mongedb作為儲存資料查詢,檔案格式支援parquet、csv、tsv以及json這種無模式資料,所有這些資料都可以像使用傳統資料庫的表查詢一樣進行快速實時查詢。
r:資料分析語言
tensorflow:基於資料流圖的處理框架,tensorflow節點表示資料運算,邊表示運算節點之間的資料互動。
大資料技術
前言 學習了好久了,也沒有系統的整理過這些東西,感覺再這麼下去算是荒廢了,懶惰加上不思進取就這樣子過去大半年了,而且最近總是把技術聖地變成自己的宣洩的地方哈哈,隨便寫的啥都亂髮,打擾到各位了,在這裡給各位道歉了 經過乙個比賽感覺自己也學得不紮實,自從非正常退役acm以後,就距離乙個acmer越來越遠...
大資料之大資料技術架構
上期我們說到大資料的概念,其實,大資料比我們想象中的還要複雜,本期,我們主要從技術的角度介紹一下大資料的知識。大資料技術是一系列技術的總稱,它是集合了資料採集與傳輸 資料儲存 資料處理與分析 資料探勘 資料視覺化等技術,是乙個龐大而複雜的技術體系。根據大資料從 到應用,實現傳輸的流程,可以將大資料技...
大資料架構 常見大資料技術
本文是一篇讀書筆記,源自 大資料架構詳解 part i 資料獲取 資料獲取元件 網頁採集 網路爬蟲 日誌收集 中介軟體技術 part ii 流處理 流的概念 流引擎 storm 流引擎 spark streaming 流引擎 flink part iii 互動式分析 互動式分析的概念 mpp db技...