一.大資料本質
(1)資料的儲存:分布式檔案系統…hdfs:hadoop distributed file system
(2)資料的計算:分布式計算
二.解決大資料儲存
分布式檔案系統(hdfs**於gfs)
搭配hdfs,至少3臺機器全分布
三.hadoop出現的前提環境
概念的出現
1.分布式檔案系統
2.分布式計算框架mapreduce
四.起源
谷歌的三篇**:
gfs:分布式儲存系統
mapreduce:分布式計算框架
bigtable
hadoop繼承了谷歌的檔案系統
使用以下三個:hdfs
mapreduce
hbase
五.與其他分布式比較
1.集群資料首先進行分布式儲存
2.集群上通過hdfs分布式檔案系統,把資料複製多份,保證資料安全
3.簡單易用,擴充套件容易
六.版本
hadoop1x版本中核心元件為hdfs,mapreduce
hadoop2x新增yarn
七.yarn
1.雲作業系統,可以理解為資源管理器,管理集群中的資源。在增加了yarn作業系統之後,mapreduce任務可以跑在yarn平台上,並且實現map reduce任務的管理。
也可以通過yarn平台執行spark。包括spark可讀取hdfs的資料檔案,相容性更好。
八.hadoop生態圈介紹
根據資料**來分。第一種是,企業內部的資料可分為業務資料和應用伺服器日記。
業務資料儲存在關係型資料庫中。應用型伺服器儲存在日記檔案中,是一種結構化資料。
第2種是通過外部渠道獲得的。比如使用者的行為記錄,如網上購物的瀏覽情況,搜尋的關鍵字等。是通過推薦系統來實現。
第3種是一種爬蟲技術,屬於非結構化資料。
元件:hive資料的清洗
sqoop:資料的匯入匯出
flume:日誌收集工具
hbase:儲存
hdfs
mapreduce
zookeeper:集群的一致性。
九.hadoop的使用案例。
用於資料分析。
1.銀行和信用卡公司進行欺詐性檢測。
2.社交**的市場分析。
3.電商**的購物模式分析,使用者行為分析。
4.城市發展的交通模式識別。
大資料學習第一天 Linux篇
在windows平台上安裝vmware虛擬機器,然後在虛擬機上安裝linux。安裝步驟詳見linux安裝文件。編輯配置檔案,新增修改以下內容 vi etc sysconfig network scripts ifcfg eth0 按i 進入文字編輯模式,出現游標,左下角會出現insert,即可以編輯...
大資料學習第一天java基礎
1.byte 封裝器類byte byte整型 8位 byte a byte.min value byte b byte.max value system.out.println b system.out.println a 127 128 2 8 256 2.short 封裝器類short shor...
學習第一天
知識是學會的,不是教會的 程式設計 驗證性或體驗性 創造性 學程式設計的4個階段 1.能看懂別人的 除錯別人的 2.能修改別人的 3.能拷貝別人的 做自己的事 4.能自己設計編寫 方法 多讀 做記錄 執行 修改 執行 練習,光說不練假把式 刷oj總結 寫部落格或許是個不錯的選擇 學生和已經工作的程式...