大資料學習第一天

一.大資料本質

(1)資料的儲存：分布式檔案系統…hdfs:hadoop distributed file system

(2)資料的計算:分布式計算

二.解決大資料儲存

分布式檔案系統(hdfs**於gfs)

搭配hdfs,至少3臺機器全分布

三.hadoop出現的前提環境

概念的出現

1.分布式檔案系統

2.分布式計算框架mapreduce

四.起源

谷歌的三篇**:

gfs:分布式儲存系統

mapreduce:分布式計算框架

bigtable

hadoop繼承了谷歌的檔案系統

使用以下三個:hdfs

mapreduce

hbase

五.與其他分布式比較

1.集群資料首先進行分布式儲存

2.集群上通過hdfs分布式檔案系統，把資料複製多份，保證資料安全

3.簡單易用，擴充套件容易

六.版本

hadoop1x版本中核心元件為hdfs,mapreduce

hadoop2x新增yarn

七.yarn

1.雲作業系統，可以理解為資源管理器，管理集群中的資源。在增加了yarn作業系統之後，mapreduce任務可以跑在yarn平台上,並且實現map reduce任務的管理。

也可以通過yarn平台執行spark。包括spark可讀取hdfs的資料檔案，相容性更好。

八.hadoop生態圈介紹

根據資料**來分。第一種是，企業內部的資料可分為業務資料和應用伺服器日記。

業務資料儲存在關係型資料庫中。應用型伺服器儲存在日記檔案中，是一種結構化資料。

第2種是通過外部渠道獲得的。比如使用者的行為記錄，如網上購物的瀏覽情況，搜尋的關鍵字等。是通過推薦系統來實現。

第3種是一種爬蟲技術，屬於非結構化資料。

元件:hive資料的清洗

sqoop:資料的匯入匯出

flume:日誌收集工具

hbase:儲存

hdfs

mapreduce

zookeeper:集群的一致性。

九.hadoop的使用案例。

用於資料分析。

1.銀行和信用卡公司進行欺詐性檢測。

2.社交**的市場分析。

3.電商**的購物模式分析，使用者行為分析。

4.城市發展的交通模式識別。

大資料學習第一天 Linux篇

在windows平台上安裝vmware虛擬機器，然後在虛擬機上安裝linux。安裝步驟詳見linux安裝文件。編輯配置檔案,新增修改以下內容 vi etc sysconfig network scripts ifcfg eth0 按i 進入文字編輯模式，出現游標，左下角會出現insert,即可以編輯...

大資料學習第一天java基礎

1.byte 封裝器類byte byte整型 8位 byte a byte.min value byte b byte.max value system.out.println b system.out.println a 127 128 2 8 256 2.short 封裝器類short shor...

學習第一天

知識是學會的,不是教會的程式設計驗證性或體驗性創造性學程式設計的4個階段 1.能看懂別人的除錯別人的 2.能修改別人的 3.能拷貝別人的做自己的事 4.能自己設計編寫方法多讀做記錄執行修改執行練習,光說不練假把式刷oj總結寫部落格或許是個不錯的選擇學生和已經工作的程式...

大資料學習第一天

大資料學習第一天 Linux篇

大資料學習第一天java基礎

學習第一天

相關推薦