hadoop基礎
1、
hdfs分布式檔案系統:儲存是大資料技術的基礎。
資料塊:
資料塊是抽象而非整個檔案作為儲存單元。
預設大小為64mb,一般設定為
128m
,備份*3
。namenode(主
):
管理檔案系統的命名空間,存放檔案元資料。
維護檔案系統的所有檔案和目錄,檔案與資料塊的對映。
記錄每個檔案中各個塊所在資料節點的資訊。
datanode(從
):
儲存並檢索資料塊。
向namenode更新所儲存塊的列表。
hdfs優點:
適合大檔案儲存,支援tb、
pb級的資料儲存,並有副本策略。
可以構建在廉價的及機器上,並有一定的容錯和恢復機制。
支援流式資料訪問,一次寫入,多次讀取最高效。
hdfs缺點:
不適合大量小檔案儲存。
不適合併發寫入,不支援檔案隨機修改。
不支援隨機讀等低延時的訪問方式。
hdfs寫流程:
client向
namenode
請求儲存,
namenode
給client
返回datanode
空閒資訊,
client
將資料分塊,之後將資料和
datanode
的某些資訊一起存到
datanode-1
上,由於資料塊要備份,
datanode-1
將資料塊傳送給
datanode-2
和datanode-3
,之後告訴
namenode
已經儲存完資料塊。
客戶端向namenode發起寫資料請求
分塊寫入datanode節點,
datanode
自動完成副本備份
datanode向
namenode
匯報儲存完成,
namenode
通知客戶端
hdfs讀流程:
客戶端向namenode發起讀資料請求
namenode找出距離最近的
datanode
節點資訊傳送給客服端
常用hdfs shell命令
copyfromlocal:從本地拷貝到
hdfs
copytolocal:從
hdfs
拷貝到本地
put:上傳檔案
實操:
./hdfs dfs -help 檢視
hdfs
操作幫助
2、
mapreduce
程式設計模型:
分布式計算是大資料應用的解決方案。
mapreduce是一種程式設計模型,是一種程式設計方法,是抽象的理論。
yarn:排程
mapreduce
操作。resourcemanager:
分配和排程資源
監控nodemanager
為mr型別的程式申請資源,並分配給內部任務
負責資料的切分
監控的任務的執行和容錯
nodemanager
管理單個結點的資源
處理來自resourcemanager的命令
mapreduce程式設計模型
輸入乙個大檔案,通過split之後,將其分為多個分片
每個檔案分片由單獨的機器去處理,這就是map方法
將各個機器計算的結果進行彙總並得到最終的結果,這就是reduce方法
使用mapreduce計算:
總結 慕課網 jQuery基礎
1.初識jquery jquery物件與dom物件是不一樣的。jquery是乙個類陣列物件,顧名思義,其兼具物件和陣列的特性。而dom物件就是乙個單獨的dom元素。它們之間也可互相轉化。利用陣列下標的方式可以讀取到jquery中的dom物件 陣列的索引是從0開始的 通過jquery自帶的get 方法...
Springboot 慕課網筆記
autoweird對應三個 component service entity entity對應資料庫 service對應事務 資料庫的事務等等 有點類似try 中間一行 出問題就會全部出錯 裡面的函式前面要加 transactional 什麼都沒有了用 component aop 切片 登入啊 新建...
node 慕課網學習
簡寫 npm i 安裝 npm un 刪除 path.dirname node a b c 1.jpg 擷取路徑 結果是 node a b c path.basename node a b c 1.jpg 擷取路徑後面的 結果 1.jpg path.extname node a b c 1.jpg ...