Spark安装
前言——Spark介绍
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎是类似于Hadoop MapReduce的通用并行框架。
Spark拥有Hadoop MapReduce所具有的优点,但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark实际上是对Hadoop的一种补充,可以很好的在Hadoop 文件系统中并行运行。
安装spark
安装版本 |
---|
spark-2.4.0 |
上传解压spark
我们将spark上传到/opt/software下,之后将其解压到/opt/module/
解压代码如下
tar -zxf spark-2.4.0-bin-hadoop2.7.tgz -C /opt/module/ |
修改名称
mv spark-2.4.0-bin-hadoop2.7 spark-2.4.0 |
配置环境变量
在/etc/profile文件的最后添加
export SPARK_HOME=/opt/module/spark-2.4.0 |
记得保存
source /etc/profile |
修改spark-env.sh文件
进入spark文件夹下的conf文件夹,修改文件名
mv spark-env.sh.template spark-env.sh |
改完之后
vim spark-env.sh |
在spark-env.sh文件的末尾添加
export JAVA_HOME=/opt/module/jdk1.8.0_191 |
修改 slaves
修改 slaves 文件:
mv slaves.template slaves |
打开 slaves 文件:
vim slaves |
添加以下内容:
hadoop102 |
完成后,我们将spark文件夹传给slave1和slave2
输入(传输的时候要在spark-2.4.0的上一目录下传输)
scp -r spark-2.4.0 root@salve1:/opt/module/ |
传输完成,在slave1和slave2中配置环境变量
启动spark
在spark-2.4.0目录下输入
sbin/start-all.sh |
启动完成后,如果可以访问
如图
则为成功
到这里spark的安装也就完成了
测试spark
hadoop102这几台机器,我现在没开,我使用master,slave1,slave2这几台机器跑一下spark自带的例子,命令基本相同
输入
|
这就是运行完成的结果
spark的安装与测试到这里,就结束了,感谢大家的阅读
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 逆光海!