大資料簡介

計算的速度比較慢

計算的資料量大

需要的技術hadoop、hive(離線分析，他的本質就是hadoop)、sqoop（協作框架） hbase（資料庫，非關係型資料庫，分布式資料庫）flume(寫作框架，收集日誌資料) cm (圖形化管理器，監控集群資源狀態，部署集群。)

計算的資料量體量沒有離線大。

計算的速度快

實時計算是基於記憶體的計算。記憶體空間比較小，資料的體量不大。

需要技術scale (函式式遍程) spark 、（spark core ,spark sql,spark streaming [流式計算]）

flink(他基本和spark的設計相通)、

kdfaka 可以實時的幫我們抽取資料

pyspark 他和spark是一樣的，但是他是用python寫的。

大資料的應用場景交通（高德地圖，利用到實時計算框架）

銀行，（分析消費行為，推銷具體業務）

**的**（基於多年資料的**，用資料探勘）

電商（**、京東，統計分析使用者瀏覽商品行為，推薦商品，每個人的**頁面的商品是不同

大資料流程資料的**，使用者行為產生的資料，伺服器產生的內部，用爬蟲技術採集到的資料，關係型資料庫中的資料。

資料的採集（kafaka流式的資料、flume伺服器、sqoop資料庫中的資料）

資料的儲存

資料的清洗採集過來的資料未必可用，etl ,對資料清洗，資料清洗一般情況是用的hive

資料的分析離線用hive

實時用的spark

資料的展示一般會用外掛程式進行資料的展示

大資料之簡介

要理解大資料這一概念，首先要從大入手，大是指資料規模，大資料一般指在10tb 1tb 1024gb 規模以上的資料量。大資料同過去的海量資料有所區別，其基本特徵可以用4個v來總結 vol ume variety value和veloc ity 即體量大多樣性價值密度低速度快。大資料技術是...

大資料 Hive 簡介

第一部分 hive簡介什麼是hive hive是基於hadoop的乙個資料倉儲工具，可以將結構化的資料檔案對映為一張資料庫表，並提供類sql查詢功能。本質是將sql轉換為mapreduce程式第二部分為什麼使用hive 面臨的問題人員學習成本太高專案週期要求太短我只是需要乙個簡單的環境 ...

大資料 Sqoop簡介

sqoop 發音 skup 是sql to hadoop的縮寫，是一款開源的工具，主要用來在hadoop和關係資料之間交換資料，可以改進資料的資料的互操作性。通過sqoop，可以方便地將資料從mysql oracle postgresql等關聯式資料庫中匯入hadoop 比如匯入到hdfs hbas...

大資料簡介

大資料之簡介

大資料 Hive 簡介

大資料 Sqoop簡介

相關推薦