Hadoop整理一(初識Hadoop)

2022-05-15 19:13:19 字數 1324 閱讀 7085

1.hadoop目的是讓多台計算機同時解決乙個問題

2.hdfs(hadoop distributed file system 分布式儲存系統)是乙個分布式檔案系統,有目錄,目錄下可以儲存檔案

3.hdfs不適合儲存大量小檔案,不適合低延遲資料訪問,不支援多使用者寫入及任意修改檔案

4.使用者命令,參考

1 hadoop fs -ls

2 hadoop fs -mkdir /test/t1

5.hadoop資源排程器

(1)預設的排程器fifo

hadoop中預設的排程器,它先按照作業的優先順序 高低,再按照到達時間的先後選擇被執行的作業。

(2)計算能力排程器capacity scheduler

支援多個佇列,每個佇列可配置一定的資源量,每個佇列採用fifo排程策略,為了防止同乙個使用者的作業獨佔佇列中的資源,該排程器會對同一使用者提交的作業所佔資源量進行限定。排程時,首先按以下策略選擇乙個合適佇列:計算每個佇列中正在執行的任務數與其應該分得的計算資源之間的比值,選擇乙個該比值最小的佇列;然後按以下策略選擇該佇列中乙個作業:按照作業優先順序和提交時間順序選擇,同時考慮使用者資源量限制和記憶體限制。

(3)公平排程器fair scheduler

按資源池(pool)來組織作業,並把資源公平的分到這些資源池裡。預設情況下,每乙個使用者擁有乙個獨立的資源池,以使每個使用者都能獲得乙份等同的集群資源而不管他們提交了多少作業。按使用者的 unix 群組或作業配置(jobconf)屬性來設定作業的資源池也是可以的。在每乙個資源池內,會使用公平共享(fair sharing)的方法在執行作業之間共享容量(capacity)。使用者也可以給予資源池相應的權重,以不按比例的方式共享集群。

除了提供公平共享方法外,公平排程器允許賦給資源池保證(guaranteed)最小共享資源,這個用在確保特定使用者、群組或生產應用程式總能獲取到足夠的資源時是很有用的。當乙個資源池包含作業時,它至少能獲取到它的最小共享資源,但是當資源池不完全需要它所擁有的保證共享資源時,額外的部分會在其它資源池間進行切分。

資源管理器(resource manager,rm)每個集群中都有乙個rm的守護程序,專門負責集群中可用資源的分配和管理

節點管理器(node manager,nm)每個節點都有乙個nm的守護程序,負責節點的本地資源管理。在rm中,nm代表本地節點

容器(container)這是分配給具體應用的資源的抽象形式。am是乙個啟動和管理應用整個生命週期的特殊容器。

客戶端(client)這是集群中能向rm提交應用的例項,並且執行了執行應用所需的am型別

《Hadoop權威指南4》第1章 初識Hadoop

1.6 apache hadoop發展簡史 1.7 本書包含的內容 未來的資料很大,個人,公共網頁的資料等等都很多。大資料勝於好演算法。硬碟的讀寫速度很慢跟不上資料儲存分析的需要。hadoop的,hdfs和mapreduce解決了資料的儲存和分析的問題。mapreduce進行每一次查詢時要處理整個資...

Hadoop學習筆記(一)初識Hadoop

研究生階段將要接觸大資料和深度學習的知識,在網上找的教程大多一上來就是一堆名詞又解釋不清楚,對新手相當不友好,在慕課網看到乙個教程,利用部落格記錄下自己學習的過程。關於hadoop 最好的介紹莫過於官網的文件,hadoop的官網如下,我們一句一句來看看hadoop官網是怎麼介紹的。the apach...

hadoop學習筆記之一 初識hadoop

引言 最近了解到 使用hadoop的專案多了起來,hadoop對於許多測試人員來說或許是個新鮮玩兒,因此,把自己之前整理的學習筆記整理發上來,希望通過此系列文章快速了解hadoop的基本概念和架構原理,從而助於hadoop相關專案的測試理解和溝通。hadoop簡介 hadoop 是乙個實現了 map...