Spark 連線Hive分布式環境搭建

2021-07-25 03:00:54 字數 1459 閱讀 9949

建立使用者

adduser username

chmod u+w /etc/sudoers

vim /etc/sudoers

chmod u-w /etc/sudoers

原始碼編譯mysql 5.5

(安裝多個版本的mysql)

安裝cmake

[plain]view plain

copy

# tar zxvf cmake-2.x.tar.gz    

# cd cmake-2.x    

# ./configure    

# make    

# make install  

mysql的原始碼編譯

[plain]view plain

copy

#tar zxvf mysql-5.5.x.tar.gz  

#cd mysql-5.5.x  

#rm cmakecache.txt  

#cmake . -dcmake_install_prefix=/usr/local/mysql55/  -dmysql_datadir=/usr/local/mysql55/data  -dwith_innobase_storage_engine=1  -dmysql_tcp_port=3306  -dmysql_unix_addr=/usr/local/mysql55/data/mysql.sock   -dwith_debug=0  

#make   

#make install  

dcmake_install_prefix mysql安裝路徑

dmysql_datadir   mysql資料路徑

編譯完成後,安裝資料庫

[plain]view plain

copy

# cd /usr/local/mysql    

# scripts/mysql_install_db --user=username  --basedir=/usr/local/mysql --datadir=/usr/local/mysql/data  

啟動安裝多個版本的mysql時,啟動mysqld(./mysqld_safe --skip-grant-table )要指定--datadir  --socket  --pid-file   --basedir   --user等引數;

啟動mysql時,要指定mysql --socket (-u root -p)引數;

mysql - hive

資料: 

分布式系統 Spark

特點 粗粒度的變換。如 map,filter,join 行為 需要得出結果時呼叫 5部分操作意義 資料分割槽集 partitions partition是資料集的最小單位,即乙個shard 位置preferredlocations 輸入partition,輸出是該資料所在的位置 此分割槽在哪台機器上...

spark分布式執行xgboost

coding utf 8 import os os.environ pyspark submit args jars data pycharm zhanglong pysparkxgboostnew xgboost4j spark 0.90.jar,data pycharm zhanglong py...

分布式找環演算法

distributed cycle detection in large scale sparse graphs 從每個起點出發,將自己身上的id發給鄰居 將自己上一輪收到的點id並加上自己的點id,將此路徑繼續傳送給鄰居 不斷的將上一輪收到的路徑加上自己的點id,將此路徑繼續傳送給鄰居 每一輪中,...