1.首先,準備好hadoop安裝包和jdk的安裝與配置
2.建立各個機器之間的ssh信任關係,即互信
3.修改hadoop配置檔案
【core、hdfs、yarn、mapred】
預設配置檔案:core-default.xml、hdfs-default.xml、mapred-default.xml、yarn-default.xml
特定配置檔案:core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml
特定配置檔案會覆蓋預設的配置項
是整個hadoop通用的配置,集群的每個主機都存在。
分布式檔案系統名字、臨時目錄以及其他與網路配置相關的引數
【hdfs-site.xml】
配置hdfs系統的執行時屬性和各個資料節點上檔案的物理儲存相關的屬性
主-輔節點存放元資料檔案表(fsimage檔案)的目錄
主-輔節點儲存元資料事務處理檔案(edits檔案)的目錄
預設資料塊大小
資料塊備份數量
名稱節點和資料節點通訊的伺服器執行緒數,預設為10
【mapred-site.xml】
保護了與cpu、記憶體、磁碟i/o和網路相關的引數
任務是本地作業執行器還是提交到yarn集群
執行map或reduce任務的jvm堆大小
執行map和reduce任務的容器的記憶體大小
儲存中間資料檔案的本地目錄
作業***(yarn)的伺服器程序數量
任務重試的最大次數
【yarn-site.xml】
配置由yarn框架提供的通用服務守護程序的屬性,比如資源管理器和節點管理器
執行資源管理器的主機名以及埠號
啟動容器的最大最小記憶體量和虛擬cpu核心數
在有jdk和hadoop的基礎上,安裝scala
修改配置檔案
【spark屬性、環境變數、日誌配置】
屬性可以直接在sparkconf上配置給sparkcontext
spark shell和spark-submit工具支援兩種方式動態載入配置,第一種是命令列選項,第二種執行./bin/spark-submit實現
當然spark-submit也會在conf/spark-defaults.conf中讀取配置選項
driver程式執行時需要的cpu核心數和記憶體數
每個executor程序使用的記憶體數
hadoop集群環境搭建之集群客戶端的搭建
1.這涉及兩個操作hdfs集群的方式集群內操作和集群外操作 2.其中集群內操作就是在集群內某個節點上操作 3.集群外操作就是用集群之外的client與namenode進行通訊,完成操作集群內操作,選擇一台datanode節點作為操作的物件,每次上傳檔案的時候根據備份機制,上傳的檔案會本身會上傳到自己...
Hadoop 和 Spark 的異同
談到大資料,相信大家對hadoop和apache spark這兩個名字並不陌生。但我們往往對它們的理解只是提留在字面上,並沒有對它們進行深入的思考,下面不妨跟我一塊看下它們究竟有什麼異同。首先,hadoop和apache spark兩者都是大資料框架,但是各自存在的目的不盡相同。hadoop實質上更...
hadoop和spark的異同
解決問題的層面不一樣 首先,hadoop和apache spark兩者都是大資料框架,但是各自存在的目的不盡相同。hadoop實質上更多是乙個分布式資料基礎設施 它將巨大的資料集分派到乙個由普通計算機組成的集群中的多個節點進行儲存,意味著您不需要購買和維護昂貴的伺服器硬體。同時,hadoop還會索引...