逆光海 - Share&Love

发表于2019-09-14|更新于2021-05-13|搭建自己的hadoop学习集群|hadoop

前言——Spark介绍 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎是类似于Hadoop MapReduce的通用并行框架。 Spark拥有Hadoop MapReduce所具有的优点，但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark实际上是对Hadoop的一种补充，可以很好的在Hadoop 文件系统中并行运行。安装spark 安装版本 spark-2.4.0 上传解压spark 我们将spark上传到/opt/software下，之后将其解压到/opt/module/ 解压代码如下 tar -zxf spark-2.4.0-bin-hadoop2.7.tgz -C /opt/module/ 修改名称 mv spark-2.4.0-bin-hadoop2.7 spark-2.4.0 配置环境变量在/etc/profile文件的最后添加 export SPARK_HO ...

Hive的安装

发表于2019-09-13|更新于2021-05-13|搭建自己的hadoop学习集群|hadoop

前言——Hive介绍 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过和SQL类似的HiveQL语言快速实现简单的MapReduce统计,不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。 Hive 没有专门的数据格式。所有Hive 的数据都存储在Hadoop兼容的文件系统（例如HDFS）中。Hive 在加载数据过程中不会对数据进行任何的修改，只是将数据移动到HDFS中Hive 设定的目录下，因此，Hive 不支持对数据的改写和添加，所有的数据都是在加载的时候确定的。附一张hadoop的生态圈图安装hive hive的安装基于之前的搭建的hadoop完全分布式集群，只需要安装在hadoop102上就行安装hive版本 hiv ...

Zookpeeper安装

发表于2019-09-11|更新于2021-05-13|搭建自己的hadoop学习集群|hadoop

前言 ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。 ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。安装zookpeeper 安装zookpeeper很简单像安装hadoop一样,解压和修改配置文件,添加环境变量就行本文只写修改配置文件和修改环境变量环境变量如图我们在zookpeeper的目录下能看到一个conf的文件夹,进入把zoo_sample.cfg重命名 mv zoo_sample.cfg zoo.cfg 然后进入zoo.cfg vim zoo.cfg 在文件中修改datadir的路径和添加server的配置例如可以改为同时创建dataDir属性值所指定的目录在zkData目录下创建myid文件，修改值为1，如： cd /opt/zookeeper/zookee ...

Hadoop完全分布式安装

发表于2019-09-10|更新于2021-05-13|搭建自己的hadoop学习集群|hadoop

前言我们之前搭建了Hadoop的伪分布式的集群，伪分布式的集群对于学习一些基础的Hadoop操作是足够的，但是当你涉及到更复杂的操作时，伪分布式就不够了，完全分布式的性能比伪分布的要强，而且完全分布式可操作性也更高，与此同时完全分布式对于电脑的配置也要求更高，完全分布式一般需要3台虚拟机来完成,下面我们开始搭建自己的完全分布式。使用环境下面是本次搭建使用的环境操作环境主机名 IP地址 jdk hadoop版本 centos6.8 hadoop102 192.168.128.172 jdk1.8.0_191 hadoop-2.7.2 hadoop103 192.168.128.173 hadoop104 192.168.128.174 本文中使用的各种包，后续我会进行上传，以方便读者的使用搭建步骤详解 1.修改各节点的网络配置在虚拟机中输入 vim /etc/sysconfig/network-scripts/ifcfg-eth0 可以进入虚拟机的网卡配置我们需要修改虚拟机的网卡默 ...

Hadoop伪分布式安装

发表于2019-09-09|更新于2021-05-13|搭建自己的hadoop学习集群|hadoop

前言本文介绍的主要是Hadoop的伪分布式的搭建以及遇到的相关问题的解决，做一下记录，jdk的安装这里就不做太多的介绍了，相信大家根据网上的安装介绍很快就能安装成功。 hadoop集群分为3种模型单机模型：测试使用伪分布式模型：运行于单机完全分布式模型：适用于多台机器以下是使用的环境操作环境主机名 IP地址 jdk hadoop版本 centos6.8 hadoop101 192.168.128.171 jdk1.8.0_191 hadoop-2.7.2 本文中使用的各种包，后续我会进行上传，以方便读者的使用安装hadoop hadoop上传与解压当我们配置好自己的虚拟机后，可以自行在网上下载xftp和xshell，来对于自己的虚拟机进行远程上传文件和远程操作，这两款软件对于学生而言都是免费的，大家可以自行在网站上下载，速度可能会有点慢。当我们下载好这两款软件后，就可以将hadoop的解压包上传至自己的虚拟机上去，我们将解压包上传至/opt/software中，开始解压hadoop，将hadoop解压至/opt ...

Numpy库的使用

发表于2019-08-16|更新于2021-05-13|python学习记录|python

前言 Numpy库是python中一个非常重要的库,它提供了一个多维数组（ndarray）数据类型，以及关于多维数组的操作，NumPy 已经成为其他大数据和机器学习模块的基础。如果不想安Numpy库的,而你的电脑里没有安装python语言的,我们可以使用Anaconda,Anaconda里包含了很多我们要用到的科学包,包括了panda,numpy等,Anaconda可以在它的官网下载,速度可能会较慢. 官网地址为:https://www.anaconda.com/ 安装Anaconda的教程可以看这篇文章:https://blog.csdn.net/qq_39610888/article/details/80805356 如果想看视频的可以去b站看这个视频:https://www.bilibili.com/video/av23124018?from=search&seid=17113017816135374394 安装完,我们就能在anaconda自带的juptyer里写代码了. numpy的数组属性在使用numpy我们需要像java一样,先进行导包 import nump ...

Linux学习

发表于2019-08-06|更新于2021-05-13|自己学习Linux|Linux

前言对于之前写的hadoop伪分布式的安装文章，可能对一些没有Linux基础的读者来说有一些的难度，所以建议大家先了解Linux的一些基础知识在来看之前的文章，可能就会觉得很简单了学习建议我个人是比较推荐大家可以去b站看看韩顺平老师的Linux教程，可以在b站直接找到，这里放出b站链接 https://www.bilibili.com/video/av21303002?from=search&seid=3872508779266125537 视频是18年上传的，但是知识是不会过时的，当然如果大家不想那么系统的了解Linux的话，可以去看看这个老哥的博客文章，这里放出链接 https://blog.csdn.net/weixin_41710054/article/details/89081599#22_vivim_19 这个文章写的比较的细，基本不知道的命令或者是快捷键都可以去文章中看看，自己看文章学习，可以比看视频省下不少时间，里面的命令可以基本满足正常操作Linux系统的要求。好的，本次Linux的学习建议就到这里了，希望大家生活愉快。