1)大資料側重於對海量資料的儲存、分析和處理,從海量資料中發現應用價值,更好地服務社會生活和生產;雲計算實質上旨在整理和優化it資源,並通過網路以服務的方式廉價地提供給使用者,物聯網的發展目標是物物相連,其發展核心是應用創新;
2)雲計算、大資料、物聯網三者相輔相成。大資料根值於雲計算,大資料分析的很多技術**於雲計算技術,雲計算的分布式資料儲存和管理系統(包括分布式檔案系統和分布式資料庫系統)提供了海量資料的儲存和管理能力,沒有雲計算技術作為支撐,大資料分析就無從說起;反之,大資料為雲計算提供了用武之地,沒有大資料,雲計算就無法發揮它的應用價值;物聯網的感測器源源不斷產生的大量資料,構成了大資料的重要資料**,沒有物聯網的飛速發展,就不會帶來資料產生方式的變革,即從人工產生階段轉向自動產生階段。同時,物聯網依賴大資料和雲計算實現海量資料的儲存、分析和處理。
2、請列舉5個hadoop生態系統中的元件,並對每乙個元件做簡要描述
1)hdfs:是hadoop分布式檔案系統,是hadoop兩大核心專案之一,針對谷歌分布式檔案系統的開源實現。hdfs具有處理海量資料,流式處理,可以執行在廉價的商用伺服器上等優點。對於超大規模資料集的應用程式而言,選擇hdfs作為底層資料儲存是較好的選擇。
2)hbase:具有高可靠性、高效能、可伸縮、分布式的列式資料庫。一般採用hdfs作為底層資料儲存。
3)mapreduce:是一種程式設計模型,用於超大規模資料集的平行計算。其核心思想是「分而治之」。
4)hive:是一種基於hadoop的資料倉儲工具。可以對hadoop檔案中的資料集進行資料整理,特殊查詢和儲存分析。
5)pig:是一種資料流語言和執行環境。適用於使用hadoop和mapreduce平台來查詢大型半結構化資料集。
3、請詳述hbase中region伺服器的store檔案的形成過程以及工作原理
region伺服器是hbase的核心模組,而store是region伺服器的核心。region伺服器由乙個hlog檔案和一系列region物件組成,乙個region由多個store組成。每個store表示了表的列族的儲存。每個store由乙個memstore和多個storefile組成。當使用者寫入資料時,先向memstore快取中寫入,當memstore容量滿了之後,執行重新整理操作,將內容寫入磁碟中的storefile檔案。隨著storefile檔案的數量逐漸增加,當達到事先設定的數量時,就會觸發合併檔案操作。多個storefile檔案會被合併成乙個更大的storefile檔案。噹噹多個storefile檔案被合併後,會逐步形成越來越大的storefile檔案,當單個storefile檔案大小超過一定的閾值時,觸發**檔案操作。同時,當前的1乙個父region**成兩個子region,父region會下線,兩個子region被master分配到相應的region伺服器中上。
大資料概論期末複習
摩爾定律 摩爾定律是由英特爾 intel 創始人之一戈登 摩爾 gordon moore 提出來的。其內容為 當 不變時,積體電路上可容納的元器件的數目,約每隔18 24個月便會增加一倍,效能也將提公升一倍。換言之,每一美元所能買到的電腦效能,將每隔18 24個月翻一倍以上。這一定律揭示了資訊科技進...
編譯原理 編譯原理期末複習1
1,關於文法 乙個文法g可以抽象的分為四元組 vn,vt,p,s vn表示非終結符 vt表示終結符 p表示產生式 s表示開始符 2,老師上課說的編譯原理的階段說的是 詞法分析,語法分析,語義分析,中間 生成,優化,目標 生成 其中語法分析,語義分析,中間 生成稱為語法制導翻譯 語義分析,中間 生成稱...
C語言期末複習資料
fighting all believe,and,never give up c語言的期末考試已經過去了,20道選擇題全對,4道程式對了三道,第一道就是讓用指標和字串編函式,但是這塊自己壓根都沒看,老師之前也說不用指標都能做,為了計算機證寒假再補一補吧,下面是自己在考前整理的一些知識點,感覺梳理一下...