Spark安装
前言——Spark介绍
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎是类似于Hadoop MapReduce的通用并行框架。
Spark拥有Hadoop MapReduce所具有的优点,但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark实际上是对Hadoop的一种补充,可以很好的在Hadoop 文件系统中并行运行。
安装spark
安装版本
spark-2.4.0
上传解压spark
我们将spark上传到/opt/software下,之后将其解压到/opt/module/
解压代码如下
tar -zxf spark-2.4.0-bin-hadoop2.7.tgz -C /opt/module/
修改名称
mv spark-2.4.0-bin-hadoop2.7 spark-2.4.0
配置环境变量
在/etc/profile文件的最后添加
export SPARK_HO ...
Hive的安装
前言——Hive介绍
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过和SQL类似的HiveQL语言快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。
Hive 没有专门的数据格式。所有Hive 的数据都存储在Hadoop兼容的文件系统(例如HDFS)中。Hive 在加载数据过程中不会对数据进行任何的修改,只是将数据移动到HDFS中Hive 设定的目录下,因此,Hive 不支持对数据的改写和添加,所有的数据都是在加载的时候确定的。
附一张hadoop的生态圈图
安装hive
hive的安装基于之前的搭建的hadoop完全分布式集群,只需要安装在hadoop102上就行
安装hive版本
hiv ...
Zookpeeper安装
前言
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。
ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。
安装zookpeeper
安装zookpeeper很简单
像安装hadoop一样,解压和修改配置文件,添加环境变量就行
本文只写修改配置文件和修改环境变量
环境变量如图
我们在zookpeeper的目录下能看到一个conf的文件夹,进入把zoo_sample.cfg重命名
mv zoo_sample.cfg zoo.cfg
然后进入zoo.cfg
vim zoo.cfg
在文件中修改datadir的路径和添加server的配置
例如可以改为
同时创建dataDir属性值所指定的目录
在zkData目录下创建myid文件,修改值为1,如:
cd /opt/zookeeper/zookee ...
Hadoop完全分布式安装
前言
我们之前搭建了Hadoop的伪分布式的集群,伪分布式的集群对于学习一些基础的Hadoop操作是足够的,但是当你涉及到更复杂的操作时,伪分布式就不够了,完全分布式的性能比伪分布的要强,而且完全分布式可操作性也更高,与此同时完全分布式对于电脑的配置也要求更高,完全分布式一般需要3台虚拟机来完成,下面我们开始搭建自己的完全分布式。
使用环境
下面是本次搭建使用的环境
操作环境
主机名
IP地址
jdk
hadoop版本
centos6.8
hadoop102
192.168.128.172
jdk1.8.0_191
hadoop-2.7.2
hadoop103
192.168.128.173
hadoop104
192.168.128.174
本文中使用的各种包,后续我会进行上传,以方便读者的使用
搭建步骤详解
1.修改各节点的网络配置
在虚拟机中输入
vim /etc/sysconfig/network-scripts/ifcfg-eth0
可以进入虚拟机的网卡配置
我们需要修改虚拟机的网卡默 ...
Hadoop伪分布式安装
前言
本文介绍的主要是Hadoop的伪分布式的搭建以及遇到的相关问题的解决,做一下记录,jdk的安装这里就不做太多的介绍了,相信大家根据网上的安装介绍很快就能安装成功。
hadoop集群分为3种模型
单机模型:测试使用
伪分布式模型:运行于单机
完全分布式模型:适用于多台机器
以下是使用的环境
操作环境
主机名
IP地址
jdk
hadoop版本
centos6.8
hadoop101
192.168.128.171
jdk1.8.0_191
hadoop-2.7.2
本文中使用的各种包,后续我会进行上传,以方便读者的使用
安装hadoop
hadoop上传与解压
当我们配置好自己的虚拟机后,可以自行在网上下载xftp和xshell,来对于自己的虚拟机进行远程上传文件和远程操作,这两款软件对于学生而言都是免费的,大家可以自行在网站上下载,速度可能会有点慢。
当我们下载好这两款软件后,就可以将hadoop的解压包上传至自己的虚拟机上去,我们将解压包上传至/opt/software中,开始解压hadoop,将hadoop解压至/opt ...
Numpy库的使用
前言
Numpy库是python中一个非常重要的库,它提供了一个多维数组(ndarray)数据类型,以及关于多维数组的操作,NumPy 已经成为其他大数据和机器学习模块的基础。
如果不想安Numpy库的,而你的电脑里没有安装python语言的,我们可以使用Anaconda,Anaconda里包含了很多我们要用到的科学包,包括了panda,numpy等,Anaconda可以在它的官网下载,速度可能会较慢.
官网地址为:https://www.anaconda.com/
安装Anaconda的教程可以看这篇文章:https://blog.csdn.net/qq_39610888/article/details/80805356
如果想看视频的可以去b站看这个视频:https://www.bilibili.com/video/av23124018?from=search&seid=17113017816135374394
安装完,我们就能在anaconda自带的juptyer里写代码了.
numpy的数组属性
在使用numpy我们需要像java一样,先进行导包
import nump ...
Linux学习
前言
对于之前写的hadoop伪分布式的安装文章,可能对一些没有Linux基础的读者来说有一些的难度,所以建议大家先了解Linux的一些基础知识在来看之前的文章,可能就会觉得很简单了
学习建议
我个人是比较推荐大家可以去b站看看韩顺平老师的Linux教程,可以在b站直接找到,这里放出b站链接
https://www.bilibili.com/video/av21303002?from=search&seid=3872508779266125537
视频是18年上传的,但是知识是不会过时的,当然如果大家不想那么系统的了解Linux的话,可以去看看这个老哥的博客文章,这里放出链接
https://blog.csdn.net/weixin_41710054/article/details/89081599#22_vivim_19
这个文章写的比较的细,基本不知道的命令或者是快捷键都可以去文章中看看,自己看文章学习,可以比看视频省下不少时间,里面的命令可以基本满足正常操作Linux系统的要求。
好的,本次Linux的学习建议就到这里了,希望大家生活愉快。