前言——Spark介绍

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎是类似于Hadoop MapReduce的通用并行框架。

Spark拥有Hadoop MapReduce所具有的优点,但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark实际上是对Hadoop的一种补充,可以很好的在Hadoop 文件系统中并行运行。

安装spark

安装版本
spark-2.4.0

上传解压spark

我们将spark上传到/opt/software下,之后将其解压到/opt/module/

解压代码如下

tar -zxf spark-2.4.0-bin-hadoop2.7.tgz -C /opt/module/

修改名称

mv spark-2.4.0-bin-hadoop2.7 spark-2.4.0

配置环境变量

在/etc/profile文件的最后添加

export SPARK_HOME=/opt/module/spark-2.4.0
export PATH=$PATH:$SPARK_HOME/bin

记得保存

source /etc/profile

修改spark-env.sh文件

进入spark文件夹下的conf文件夹,修改文件名

mv spark-env.sh.template spark-env.sh

改完之后

vim spark-env.sh

在spark-env.sh文件的末尾添加

export JAVA_HOME=/opt/module/jdk1.8.0_191
export SCALA_HOME=/opt/module/scala-2.11.4
export HADOOP_HOME=/opt/module/hadoop-2.7.2
export HADOOP_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop

修改 slaves

修改 slaves 文件:

mv slaves.template slaves

打开 slaves 文件:

vim slaves

添加以下内容:

hadoop102
hadoop103
hadoop104

完成后,我们将spark文件夹传给slave1和slave2

输入(传输的时候要在spark-2.4.0的上一目录下传输)

scp -r spark-2.4.0 root@salve1:/opt/module/
scp -r spark-2.4.0 root@salve2:/opt/module/

传输完成,在slave1和slave2中配置环境变量

启动spark

在spark-2.4.0目录下输入

sbin/start-all.sh 

启动完成后,如果可以访问

http://192.168.128.172:8080/

如图

则为成功

到这里spark的安装也就完成了

测试spark

hadoop102这几台机器,我现在没开,我使用master,slave1,slave2这几台机器跑一下spark自带的例子,命令基本相同

输入


bin/spark-submit --class org.apache.spark.examples.SparkPi --master local examples/jars/spark-examples_2.11-2.0.0.jar

这就是运行完成的结果

spark的安装与测试到这里,就结束了,感谢大家的阅读