1.啟動hdfs模組
此時 50070就可以訪問了,載入磁碟
./start-dfs.sh
namenode
secodarynamenode
datanode
2.hadoop1.x原理說明
3.hadoop2.x yarn啟動
啟動資源管理器,此時 8088就可以訪問了,載入磁碟
./start-yarn.sh
resourcemanager
nodemanager
4.spark集群cluster manager
包括standalone/apche mesos/yarn/k8
worker node
5.spark特性(部分)
spark-defaults.conf 中新增spark.yarn
.historyservice
.address masster:18080
spark.histroy
.fs.logdirectory hdfs://master:9000/historyserverforspark
./spark-shell
--master spark://master:7077
spark shell操作demo
//會根據環境配置去對應的資料夾,預設hdfs
:21scala> data.todebugstring
res0: string =
:21
:21
scala> data.count
res1: long = 16516
scala> val flatted = data.flatmap(_.split(" "))
:23scala> flatted.todebugstring
res3: string =
:23
:21
:21
:25res4: string =
:25
:23
:21
:21
reduced: org.apache.spark.rdd.rdd[(string, int)] = shuffledrdd[4] at reducebykey at
:27scala> reduced.todebugstring
res5: string =
(12) shuffledrdd[4] at reducebykey at
:27
:25
:23
:21
:21
sh /opt/nsfocus/espc/deps/spark/bin/spark-submit --class org.apache
.spark
.examples
.sparkpi --master spark://master:7077 ../lib/spark-examples-1.6
.0-hadoop2.6
.0.jar
1.自動進行記憶體和磁碟的切換
2.基於lineage的高效容錯
3.task如果失敗,會自動進行特定次數的重試
4.stage如果失敗,會自動進行特定次數的重試,只提交失敗的stage
快取時機:
checkpoint、特別耗時的計算、shuffle之後
Hadoop Spark 常見問題 二
spark 1.rdd?資料集拆分 資料儲存在記憶體或者磁碟 多分割槽 失效自動重構 轉換操作構造 2.rdd倆種依賴?窄依賴 父rdd中的分割槽最多只能被乙個子rdd的乙個分割槽使用 和寬依賴 子rdd依賴於所有父rdd 3.spark 角色?1.driver main函式在裡面 2.sparco...
Hadoop spark集群 hbase的安裝
上傳 hbase 1.2.3 bin.tar.gz 到node01 cd tools tar zxvf hbase 1.2.3 bin.tar.gz c ren 配置環境變數 vi etc profile export hbase home ren hbase 1.2.3 export path p...
Lodrunner相關概念
1.集合點 集合虛擬使用者,以便於準備好使用者,一致在某個時刻執行任務 在某個時間把需要虛擬的使用者數目準備好 如何新增集合點 設定指令碼執行場景時,也可以對集合點策略進行相應配置 2.事物 事物是用來度量伺服器響應事物的時間。乙個完整任務有開始,結束 插入事物方式有2種 事物狀態有3種 lr pa...