大資料原理期末複習

1）大資料側重於對海量資料的儲存、分析和處理，從海量資料中發現應用價值，更好地服務社會生活和生產；雲計算實質上旨在整理和優化it資源，並通過網路以服務的方式廉價地提供給使用者，物聯網的發展目標是物物相連，其發展核心是應用創新；

2）雲計算、大資料、物聯網三者相輔相成。大資料根值於雲計算，大資料分析的很多技術**於雲計算技術，雲計算的分布式資料儲存和管理系統（包括分布式檔案系統和分布式資料庫系統）提供了海量資料的儲存和管理能力，沒有雲計算技術作為支撐，大資料分析就無從說起；反之，大資料為雲計算提供了用武之地，沒有大資料，雲計算就無法發揮它的應用價值；物聯網的感測器源源不斷產生的大量資料，構成了大資料的重要資料**，沒有物聯網的飛速發展，就不會帶來資料產生方式的變革，即從人工產生階段轉向自動產生階段。同時，物聯網依賴大資料和雲計算實現海量資料的儲存、分析和處理。

2、請列舉5個hadoop生態系統中的元件，並對每乙個元件做簡要描述

1）hdfs：是hadoop分布式檔案系統，是hadoop兩大核心專案之一，針對谷歌分布式檔案系統的開源實現。hdfs具有處理海量資料，流式處理，可以執行在廉價的商用伺服器上等優點。對於超大規模資料集的應用程式而言，選擇hdfs作為底層資料儲存是較好的選擇。

2）hbase：具有高可靠性、高效能、可伸縮、分布式的列式資料庫。一般採用hdfs作為底層資料儲存。

3）mapreduce：是一種程式設計模型，用於超大規模資料集的平行計算。其核心思想是「分而治之」。

4）hive：是一種基於hadoop的資料倉儲工具。可以對hadoop檔案中的資料集進行資料整理，特殊查詢和儲存分析。

5）pig：是一種資料流語言和執行環境。適用於使用hadoop和mapreduce平台來查詢大型半結構化資料集。

3、請詳述hbase中region伺服器的store檔案的形成過程以及工作原理

region伺服器是hbase的核心模組，而store是region伺服器的核心。region伺服器由乙個hlog檔案和一系列region物件組成，乙個region由多個store組成。每個store表示了表的列族的儲存。每個store由乙個memstore和多個storefile組成。當使用者寫入資料時，先向memstore快取中寫入，當memstore容量滿了之後，執行重新整理操作，將內容寫入磁碟中的storefile檔案。隨著storefile檔案的數量逐漸增加，當達到事先設定的數量時，就會觸發合併檔案操作。多個storefile檔案會被合併成乙個更大的storefile檔案。噹噹多個storefile檔案被合併後，會逐步形成越來越大的storefile檔案，當單個storefile檔案大小超過一定的閾值時，觸發**檔案操作。同時，當前的1乙個父region**成兩個子region，父region會下線，兩個子region被master分配到相應的region伺服器中上。

大資料原理期末複習

大資料概論期末複習

編譯原理編譯原理期末複習1

C語言期末複習資料

大資料原理期末複習

大資料概論期末複習

編譯原理 編譯原理期末複習1

C語言期末複習資料

相關推薦

編譯原理編譯原理期末複習1