大資料簡介

2022-06-18 08:57:13 字數 787 閱讀 3241

計算的速度比較慢

計算的資料量大

需要的技術hadoop、hive(離線分析,他的本質就是hadoop)、sqoop(協作框架) hbase(資料庫,非關係型資料庫,分布式資料庫)flume(寫作框架,收集日誌資料)  cm (圖形化管理器,監控集群資源狀態,部署集群。)

計算的資料量體量沒有離線大。

計算的速度快

實時計算是基於記憶體的計算。記憶體空間比較小,資料的體量不大。

需要技術scale (函式式遍程) spark 、 (spark core ,spark sql,spark streaming [流式計算])

flink(他基本和spark的設計相通)、 

kdfaka 可以實時的幫我們抽取資料

pyspark 他和spark是一樣的,但是他是用python寫的。

大資料的應用場景交通(高德地圖,利用到實時計算框架)

銀行,(分析消費行為,推銷具體業務)

**的**(基於多年資料的**,用資料探勘)

電商(**、京東,統計分析使用者瀏覽商品行為,推薦商品,每個人的**頁面的商品是不同

大資料流程資料的**,使用者行為產生的資料,伺服器產生的內部,用爬蟲技術採集到的資料,關係型資料庫中的資料。

資料的採集(kafaka流式的資料、flume伺服器、sqoop資料庫中的資料)

資料的儲存 

資料的清洗 採集過來的資料未必可用,etl ,對資料清洗,資料清洗一般情況是用的hive

資料的分析離線用hive

實時用的spark

資料的展示一般會用外掛程式進行資料的展示

大資料之簡介

要理解大資料這一概念,首先要從 大 入手,大 是指資料規模,大資料一般指在10tb 1tb 1024gb 規模以上的資料量。大資料同過去的海量資料有所區別,其基本特徵可以用4個v來總結 vol ume variety value和veloc ity 即體量大 多樣性 價值密度低 速度快。大資料技術是...

大資料 Hive 簡介

第一部分 hive簡介 什麼是hive hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供類sql查詢功能。本質是將sql轉換為mapreduce程式 第二部分 為什麼使用hive 面臨的問題 人員學習成本太高 專案週期要求太短 我只是需要乙個簡單的環境 ...

大資料 Sqoop簡介

sqoop 發音 skup 是sql to hadoop的縮寫,是一款開源的工具,主要用來在hadoop和關係資料之間交換資料,可以改進資料的資料的互操作性。通過sqoop,可以方便地將資料從mysql oracle postgresql等關聯式資料庫中匯入hadoop 比如匯入到hdfs hbas...