hadoop快速入門

2021-08-14 17:19:58 字數 1489 閱讀 6870

大資料核心含義是一種技術革新

隨著網際網路時代的深入,產生了越來越多的資料,比如:

1、電商產生的大量使用者瀏覽、購物行為

2、移動運營商記錄了大量的使用者上網行為

3、網路輿情分析—-營銷支撐

4、金融系統徵信分析

。。。。。。。

上述的這些需求,用以前的傳統技術無法勝任,需要有乙個全新的技術體系來支撐

在此背景之下,就產生了一系列針對海量資料進行處理的技術;

總結:「大資料」這個概念核心是指一系列針對海量資料進行處理的新技術

大資料技術的主要功能:處理海量資料

例如下圖 購買了商品使用者還購買了,下面的資料就是海量資料處理的結構

下面的」猜你喜歡」 後台的一些演算法模型,加一些使用者行為而得出的

網易雲** 也是採用這種資料

以及優酷和愛奇藝的廣告推送

精準廣告推送:對海量網際網路使用者的相關資料統計分析——核心:使用者畫像

** 推薦:——要大資料

我的**:——已購買的寶貝:系統功能的實現都需要依賴大資料技術,需要乙個分布式的快速響應的海量資料庫系統

大資料技術基本上都需要解決兩個核心需求:

一般都是採用分布式儲存:

將資料(檔案)分散到乙個集群上的n多台機器上儲存

什麼叫運算:

比如,有一堆使用者瀏覽商品的行為記錄,需要統計出:

最熱門的top100個商品;

每個人一次訪問平均瀏覽了多少個商品;

每乙個商品被人瀏覽時,同時還會有哪些商品跟隨著被瀏覽;

…….

上述這些資料分析需求,最終都會轉化成程式來實現,程式的執行最終又是機器cpu+記憶體+磁碟等硬體資源的執行;

在海量資料的場景下,單機資源無法滿足運算的需要,所以,在大資料體系下,一切資料運算邏輯的實現都得靠:分布式運算系統

上文所述,分布式儲存、分布式運算,都應該由成熟的框架來提供

hadoop就是其中的一種框架

hadoop就能提供分布式儲存及分布式運算的功能:

1、hadoop中有乙個元件:hdfs——分布式儲存

2、hadoop中有乙個元件:mapreduce——分布式運算

3、hadoop中有乙個元件:yarn——為mapreduce提供硬體資源排程

但是hadoop的核心元件,極為底層,如果直接基於這個底層框架來開發我們的資料分析邏輯,比較繁瑣,開發效率很低,所以,在hadoop這個底層框架之上,又衍生了大量的快捷開發工具:

1、hive : 可以讓使用者只要寫sql來表達資料處理邏輯即可

Hadoop 快速入門

1.1 什麼是hadoop 1 hadoop是apache旗下一套開源軟體平台。2 hadoop提供的功能 利用伺服器集群,根據使用者的自定義業務邏輯,對海量資料進行分布式處理。3 hadoop的核心元件有 a common 基礎元件 b hdfs 分布式檔案系統 c yarn 運算支援排程系統 d...

Hadoop快速入門( Hadoop簡介)

hadoop 核心元件 hadoop 包含以下模組 hadoop common 常見實用工具,用來支援其他 hadoop 模組。hadoop distributed file system hdfs 分布式檔案系統,它提供對應用程式資料的高吞吐量訪問。hadoop yarn 乙個作業排程和集群資源管...

Hadoop 入門介紹

hadoop 優勢 高可靠性 hadoop底層維護多個資料副本,所以即使hadoop某個計算元素或儲存出現故障,也不會導致資料丟失 高擴充套件性 在集群間分配任務資料,可方便擴充套件節點 高效性 在mapreduce思想下,hadoop是並行工作的,以加快任務處理速度 高容錯性 能夠自動將失敗的任務...