計算的速度比較慢
計算的資料量大
需要的技術hadoop、hive(離線分析,他的本質就是hadoop)、sqoop(協作框架) hbase(資料庫,非關係型資料庫,分布式資料庫)flume(寫作框架,收集日誌資料) cm (圖形化管理器,監控集群資源狀態,部署集群。)
計算的資料量體量沒有離線大。
計算的速度快
實時計算是基於記憶體的計算。記憶體空間比較小,資料的體量不大。
需要技術scale (函式式遍程) spark 、 (spark core ,spark sql,spark streaming [流式計算])
flink(他基本和spark的設計相通)、
kdfaka 可以實時的幫我們抽取資料
pyspark 他和spark是一樣的,但是他是用python寫的。
大資料的應用場景交通(高德地圖,利用到實時計算框架)
銀行,(分析消費行為,推銷具體業務)
**的**(基於多年資料的**,用資料探勘)
電商(**、京東,統計分析使用者瀏覽商品行為,推薦商品,每個人的**頁面的商品是不同
大資料流程資料的**,使用者行為產生的資料,伺服器產生的內部,用爬蟲技術採集到的資料,關係型資料庫中的資料。
資料的採集(kafaka流式的資料、flume伺服器、sqoop資料庫中的資料)
資料的儲存
資料的清洗 採集過來的資料未必可用,etl ,對資料清洗,資料清洗一般情況是用的hive
資料的分析離線用hive
實時用的spark
資料的展示一般會用外掛程式進行資料的展示
大資料之簡介
要理解大資料這一概念,首先要從 大 入手,大 是指資料規模,大資料一般指在10tb 1tb 1024gb 規模以上的資料量。大資料同過去的海量資料有所區別,其基本特徵可以用4個v來總結 vol ume variety value和veloc ity 即體量大 多樣性 價值密度低 速度快。大資料技術是...
大資料 Hive 簡介
第一部分 hive簡介 什麼是hive hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供類sql查詢功能。本質是將sql轉換為mapreduce程式 第二部分 為什麼使用hive 面臨的問題 人員學習成本太高 專案週期要求太短 我只是需要乙個簡單的環境 ...
大資料 Sqoop簡介
sqoop 發音 skup 是sql to hadoop的縮寫,是一款開源的工具,主要用來在hadoop和關係資料之間交換資料,可以改進資料的資料的互操作性。通過sqoop,可以方便地將資料從mysql oracle postgresql等關聯式資料庫中匯入hadoop 比如匯入到hdfs hbas...