搭建Spark完全分布式集群
写在前面一:
本文详细总结Spark分布式集群的安装步骤,帮助想要学习Spark的技术爱好者快速搭建Spark的学习研究环境。
写在前面二:
使用软件说明
约定,Spark相关软件存放目录: /usr/local/yujianxin/spark,
Hadoop 相关软件存放目录: /home/yujianxin/hadoop。
Spark集群示意图
一、具体安装步骤
1、安装jdk
2、安装Hadoop集群,参考 http://blog.csdn.net/aaronhadoop/article/details/24867257
3、安装 Scala
cd /usr/local/yujianxin/spark/
tar -zxvf scala-2.9.3.tgz
修改/etc/profile
4、安装Spark
4.1、修改/etc/profile
cd /usr/local/yujianxin/spark/
tar -zxvf spark-0.7.2-prebuilt-hadoop1.tgz
4.2、配置Spark
4.2.1、修改配置文件 spark-env.sh
cd /usr/local/yujianxin/spark/spark-0.7.2/conf
cp spark-env.sh.template spark-env.sh
vi spark-env.sh
4.2.2、修改配置文件
slaves
至此,master节点上的Spark已配置完毕。 把master上Spark相关配置copy到slave1、 slave2中,注意,三台机器spark所在目录必须一致,因为master会登陆到worker上执行命令,master认为worker的spark路径与自己一样。
二、安装测试
2.1、测试1——通过命令行
cd $SPARK_HOME/bin
start-all.sh
2.2、测试2——通过浏览器