分布式計算
hadoop
與傳統資料庫對比
zookeeper
hadoop架構
大資料是指無法在一定時間內用常規軟體工具對其內容進行抓取、管理和處理的資料集合。
volume(大資料量):90%的資料是過去兩年產生
velocity(速度快):資料增長速度快,時效性高
結構化資料、半結構化資料、非結構化資料
value(價值密度低):需要挖掘資料價值
時效性
不可變性
分布式計算將較大的資料分成小的部分進行處理
專案傳統分布式計算
新的分布式計算-hadoop
計算方式
將資料複製到計算節點
在不同資料節點平行計算
可處理資料量
小資料量
大資料量
cpu效能限制
受cpu限制較大
受單台裝置限制小
提公升計算能力
提公升單台機器計算能力
擴充套件低成本伺服器集群
hadoop是乙個開源分布式系統架構
分布式檔案系統hdfs——解決大資料儲存
分布式計算框架mapreduce——解決大資料計算
分布式資源管理系統yarn
處理海量資料的架構首選
非常快的完成大資料計算任務
已發展成為乙個hadoop生態圈
hadoop發行版本
hadoop與關係型資料庫對比
專案rdbms
hadoop
格式寫資料時要求
讀資料時要求
速度讀資料速度快
寫資料速度快
資料監管
準結構化
任意資料結構
資料處理
有限的處理能力
強大的處理能力
資料型別
結構化資料
結構化、半結構化、非結構化
應用場景
互動式olap分析、acid事務處理、企業業務系統
處理非結構化資料、海量資料儲存計算
zookeeper集群
角色:leader、follower、observer
hdfs dfs -put /opt/sed.txt /mydemo 把opt裡面的sed.txt上傳到mydemo資料夾裡面
hdfs dfs -text /mydemo/sed.txt 檢視sed.txt
hdfs dfs -mkdir -p /mydemo/xuxu 遞迴建立目錄mydemo/xuxu
hdfs dfs -rmr /mydemo 遞迴刪除mydemo目錄
建立存放資料檔案的目錄:
hdfs dfs -mkdir /hdfs/shell
hdfs dfs -ls/hdfs/shell
將通訊資料上傳到hdfs並檢視
hdfs dfs -put /home/hadoop/data/mobile.txt/hdfs/shell
hdfs dfs -text /hdfs/shell/mobile.txt
hdfs dfs -get /hdfs/shell/mobile.txt /home/hadoop
統計目錄下檔案大小
hdfs dfs -du /hdfs/shell
刪除移動資料檔案和目錄
hdfs dfs -rm /hdfs/shell/mobile.txt
hdfs dfs -rmr /hdfs rmr遞迴刪除目錄下所有子目錄和檔案,生產環境慎用
副本機制:
客戶下達命令,要讀a.txt檔案,經過分布式檔案系統的讀取,到namenode讀取fsimage和行為日誌edits.log,再把這些資料塊位址都打包傳送到客戶端,經過fsinputstream讀取檔案輸入流讀取datanode裡面的資料然後返回到客戶端,最後關閉輸入流。
首先向分布式檔案系統傳送訊號,然後向namenode傳送訊號確認是否有空間存放,namenode返回訊號和空間位址到客戶端,然後經過輸出流fsdataoutputstream往datanode寫入資料,並備份至同機架副本和相鄰機架副本,然後向客戶端傳送訊號完成寫入,最後關閉輸出流。
Hadoop基礎概念
狹義 hadoop軟體 hadoop.apache.org 廣義 hadoop生態圈 hive zookeeper spark 用2.x 3.x 需要踩坑 主要用cdh5.x 部署大資料環境 用的是 hadoop2.6.0 cdh5.7.0 ctrl f 搜尋 cdh5.7.0 hdfs 儲存 分布...
Hadoop基礎概念
hadoop模組組成 hdfs 用於儲存 可靠的,高吞量的分布式檔案系統 mapreduce 用於計算 分布式的離線平行計算框架 yarn 用於資源排程 作業排程與集群資源管理框架 common 支援其他模組的工具模組 檔案系統核心模組 hdfs的組成 namenode 集群當中的主節點,用於管理集...
hadoop 分片 分割槽概念
參考部落格 輸入分片 input split 在進行map計算之前,mapreduce會根據輸入檔案計算輸入分片 input split 每個輸入分片 input split 針對乙個map任務,輸入分片 input split 儲存的並非資料本身,而是乙個分片長度和乙個記錄資料的位置的陣列。had...