1、執行hadoop中的wordcount,得出一結果。
2、對於某個指定單詞在ubuntu中的檔案所在目錄下執行:grep 指定單詞 所有統計檔案|wc
實際上就是linux/unix平台的ls指令:
a、 ls | grep filename 查詢檔案名包含filename 的檔案(這其實就是乙個map,找到需要的資料)
b、 ls | grep filename | wc -l 計算上述指令查詢檔案個數(這其實就是乙個reduce,對找到資料進行彙總聚合)
又如sql中的select 語句:
c、 select * from table t where t.name like 'tht%' (這其實就是乙個map,找到需要的資料)
d、 select count(*) from table t where t.name like 'tht%' (這其實就是乙個reduce,對找到資料進行彙總聚合)
下面這個sql的例子在hive中就是通過mapreduce實現的,c為乙個map任務 d為乙個reduce任務
hadoop簡單了解
四大模組 三大核心 hdfs mapreduce yarn 生態圈 分布式系統 hdfs檔案系統的介紹 分而治之 將大檔案 大批量檔案,分布式存放在大量伺服器上,以便於採取分而治之的方式對海量資料進行運算分析 重點概念 檔案切塊副本存放元資料 namenode提供元資料服務,元資料資訊要載入到記憶體...
Hadoop簡單回憶
hadoop 主要就是用來解決大資料的儲存和計算問題的!那麼什麼是大資料那?資料量級很大的應用處理,資料集在tb及以上,或日增量在 g的資料!所以大資料的特點便是4v,何為4v?1 vomule 大量 資料量大至少為tb或日增gb以上的 2 variety 多樣 資料多樣,結構化資料,非結構化資料,...
Hadoop 簡單介紹
概述 hadoop是apache公司旗下乙個分布式基礎架構,主要解決大資料儲存和計算問題,是谷歌公司三篇 的具體實現 gfs hadoop,mapreduce mr,bigtable hbase 兩個版本 1.x版本的mapreduce既負責計算又負責資源的排程。2.x版本將mapreduce的資源...