hadoop spark相關概念

1.啟動hdfs模組

此時 50070就可以訪問了,載入磁碟

./start-dfs.sh

namenode

secodarynamenode

datanode

2.hadoop1.x原理說明

3.hadoop2.x yarn啟動

啟動資源管理器，此時 8088就可以訪問了,載入磁碟

./start-yarn.sh

resourcemanager

nodemanager

4.spark集群

cluster manager
包括standalone/apche mesos/yarn/k8
worker node

5.spark特性（部分）

spark-defaults.conf 中新增 spark.yarn .historyservice .address masster:18080 spark.histroy

.fs.logdirectory hdfs://master:9000/historyserverforspark

./spark-shell
--master spark://master:7077
spark shell操作demo
//會根據環境配置去對應的資料夾，預設hdfs
:21scala> data.todebugstring
res0: string =
:21 
:21 
scala> data.count
res1: long = 16516
scala> val flatted = data.flatmap(_.split(" "))
:23scala> flatted.todebugstring
res3: string =
:23 
:21 
:21 
:25res4: string =
:25 
:23 
:21 
:21 
reduced: org.apache.spark.rdd.rdd[(string, int)] = shuffledrdd[4] at reducebykey at
:27scala> reduced.todebugstring
res5: string =
(12) shuffledrdd[4] at reducebykey at
:27 
:25 
:23 
:21 
:21

sh /opt/nsfocus/espc/deps/spark/bin/spark-submit --class org.apache
.spark
.examples
.sparkpi --master spark://master:7077 ../lib/spark-examples-1.6
.0-hadoop2.6
.0.jar

1.自動進行記憶體和磁碟的切換 2.基於lineage的高效容錯 3.task如果失敗，會自動進行特定次數的重試 4.stage如果失敗，會自動進行特定次數的重試,只提交失敗的stage 快取時機：

checkpoint、特別耗時的計算、shuffle之後

Hadoop Spark 常見問題二

spark 1.rdd?資料集拆分資料儲存在記憶體或者磁碟多分割槽失效自動重構轉換操作構造 2.rdd倆種依賴？窄依賴父rdd中的分割槽最多只能被乙個子rdd的乙個分割槽使用和寬依賴子rdd依賴於所有父rdd 3.spark 角色？1.driver main函式在裡面 2.sparco...

Hadoop spark集群 hbase的安裝

上傳 hbase 1.2.3 bin.tar.gz 到node01 cd tools tar zxvf hbase 1.2.3 bin.tar.gz c ren 配置環境變數 vi etc profile export hbase home ren hbase 1.2.3 export path p...

Lodrunner相關概念

1.集合點集合虛擬使用者，以便於準備好使用者，一致在某個時刻執行任務在某個時間把需要虛擬的使用者數目準備好如何新增集合點設定指令碼執行場景時，也可以對集合點策略進行相應配置 2.事物事物是用來度量伺服器響應事物的時間。乙個完整任務有開始，結束插入事物方式有2種事物狀態有3種 lr pa...

hadoop spark相關概念

Hadoop Spark 常見問題 二

Hadoop spark集群 hbase的安裝

Lodrunner相關概念

相關推薦

Hadoop Spark 常見問題二