开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> Hadoop3_07 -> 正文阅读

[大数据]Hadoop3_07

1 MapReduce概述

1.1 MapReduce定义

Mapreduce是一个分布式运算程序的编程框架，是用户开发"基于hadoop的数据分析应用"的核心框架；

Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上。

1.2 MapReduce优缺点

1.2.1 优点

（1）MapReduce 易于编程。它简单的实现一些接口，就可以完成一个分布式程序，这个分布式程序可以分布到大量廉价的 PC 机器运行。也就是说你写一个分布式程序，跟写一个简单的串行程序是一模一样的。就是因为这个特点使得 MapReduce 编程变得非常流行。
（2）良好的扩展性。当你的计算资源不能得到满足的时候，你可以通过简单的增加机器来扩展它的计算能力。
（3）高容错性。MapReduce 设计的初衷就是使程序能够部署在廉价的 PC 机器上，这就要求它具有很高的容错性。比如其中一台机器挂了，它可以把上面的计算任务转移到另外一个节点上面上运行，不至于这个任务运行失败，而且这个过程不需要人工参与，而完全是由 Hadoop 内部完成的。
（4）适合 PB 级以上海量数据的离线处理。这里加红字体离线处理，说明它适合离线处理而不适合在线处理。比如像毫秒级别的返回一个结果，MapReduce 很难做到。

1.2.2 缺点

（1）不擅长做实时计算。MapReduce 无法像 Mysql 一样，在毫秒或者秒级内返回结果。
（2）不擅长做流式计算。流式计算的输入数据时动态的，而 MapReduce 的输入数据集是静态的，不能动态变化。这是因为 MapReduce 自身的设计特点决定了数据源必须是静态的。
（3）不擅长做DAG（有向图）计算。多个应用程序存在依赖关系，后一个应用程序的输入为前一个的输出。在这种情况下，MapReduce 并不是不能做，而是使用后，每个MapReduce 作业的输出结果都会写入到磁盘，会造成大量的磁盘IO，导致性能非常的低下。

1.3 MapReduce核心思想

在这里插入图片描述

（1）分布式的运算程序往往需要分成至少2个阶段。
（2）第一个阶段的MapTask并发实例，完全并行运行，互不相干。
（3）第二个阶段的ReduceTask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。
（4）MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段，如果用户的业务逻辑非常复杂，那就只能多个MapReduce程序，串行运行。
总结：分析WordCount数据流走向深入理解MapReduce核心思想。

1.4 MapReduce进程

一个完整的mapreduce程序在分布式运行时有三类实例进程：

（1）MrAppMaster：负责整个程序的过程调度及状态协调。
（2）MapTask：负责map阶段的整个数据处理流程。
（3）ReduceTask：负责reduce阶段的整个数据处理流程。

1.5 官方WordCount源码

采用反编译工具反编译源码，发现WordCount案例有Map类、Reduce类和驱动类。且数据的类型是Hadoop自身封装的序列化类型。

1.6 常用数据序列化类型

在这里插入图片描述

1.7 MapReduce编程规范

用户编写的程序分成三个部分：Mapper、Reducer和Driver。
》》1 Mapper阶段

（1）用户自定义的Mapper要继承自己的父类
（2）Mapper的输入数据是KV对的形式（KV的类型可自定义）
（3）Mapper中的业务逻辑写在map()方法中
（4）Mapper的输出数据是KV对的形式（KV的类型可自定义）
（5）map()方法（maptask进程）对每一个<K,V>调用一次
》》2 Reducer阶段
（1）用户自定义的Reducer要继承自己的父类
（2）Reducer的输入数据类型对应Mapper的输出数据类型，也是KV
（3）Reducer的业务逻辑写在reduce()方法中
（4）Reducetask进程对每一组相同k的<k,v>组调用一次reduce()方法
》》3 Driver阶段
整个程序需要一个Drvier来进行提交，提交的是一个描述了各种必要信息的job对象

1.8 WordCount案例实操

1.需求
在给定的文本文件中统计输出每一个单词出现的总次数
（1）输入数据

dev1 dev1 
banzhang
cls cls

（2）期望输出数据

dev1     2
banzhang    1
cls    2

2.需求分析
按照MapReduce编程规范，分别编写Mapper，Reducer，Driver
》》1输入数据

hadoop hdfs 
mr mr

》》2输出数据

hadoop 1
hdfs 1
mr 2

》》3 Mapper
3.1 将MapTask传给我们的文本内容先转换成String
3.2 根据空格将这一行切分成单词
3.3 将单词输出为<单词,1>
》》4 Reducer
4.1 汇总各个key的个数
4.2 输出该key的总次数
》》5 Driver
5.1 获取配置信息，获取job对象实例
5.2 指定本程序的jar所在的路径
5.3 关联Mapper/Reducer的业务类
5.4 指定Mapper输出数据的kv类型
5.5 指定最终输出的数据的kv类型
5.6 指定job的输入原始文本所在目录
5.7 指定job的输出结果所在目录
5.8 提交作业

3.环境准备
（1）创建maven工程
（2）在pom.xml文件中添加如下依赖

<dependencies>
    <dependency>
        <groupId>junit</groupId>
        <artifactId>junit</artifactId>
        <version>4.12</version>
    </dependency>
    <dependency>
        <groupId>org.apache.logging.log4j</groupId>
        <artifactId>log4j-slf4j-impl</artifactId>
        <version>2.12.0</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-client</artifactId>
        <version>3.1.3</version>
    </dependency>
</dependencies>

（2）在项目的resources目录下，新建一个文件，命名为log4j2.xml，在文件中填入。

<?xml version="1.0" encoding="UTF-8"?>
<Configuration status="error" strict="true" name="XMLConfig">
    <Appenders>
        <!-- 类型名为Console，名称为必须属性 -->
        <Appender type="Console" name="STDOUT">
            <!-- 布局为PatternLayout的方式，
            输出样式为[INFO] [2018-01-22 17:34:01][org.test.Console]I'm here -->
            <Layout type="PatternLayout"
                    pattern="[%p] [%d{yyyy-MM-dd HH:mm:ss}][%c{10}]%m%n" />
        </Appender>

    </Appenders>

    <Loggers>
        <!-- 可加性为false -->
        <Logger name="test" level="info" additivity="false">
            <AppenderRef ref="STDOUT" />
        </Logger>

        <!-- root loggerConfig设置 -->
        <Root level="info">
            <AppenderRef ref="STDOUT" />
        </Root>
    </Loggers>

</Configuration>

4．编写程序
（1）编写Mapper类

package com.dev1.mapreduce;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class WordcountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{
    
    Text k = new Text();
    IntWritable v = new IntWritable(1);
    
    @Override
    protected void map(LongWritable key, Text value, Context context)    throws IOException, InterruptedException {
        
        // 1 获取一行
        String line = value.toString();
        
        // 2 切割
        String[] words = line.split(" ");
        
        // 3 输出
        for (String word : words) {
            
            k.set(word);
            context.write(k, v);
        }
    }
}

（2）编写Reducer类

package com.dev1.mapreduce.wordcount;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class WordcountReducer extends Reducer<Text, IntWritable, Text, IntWritable>{

int sum;
IntWritable v = new IntWritable();

    @Override
    protected void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException {
        
        // 1 累加求和
        sum = 0;
        for (IntWritable count : values) {
            sum += count.get();
        }
        
        // 2 输出
       v.set(sum);
        context.write(key,v);
    }
}

（3）编写Driver驱动类

package com.dev1.mapreduce.wordcount;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordcountDriver {

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        // 1 获取配置信息以及封装任务
        Configuration configuration = new Configuration();
        Job job = Job.getInstance(configuration);

        // 2 设置jar加载路径
        job.setJarByClass(WordcountDriver.class);

        // 3 设置map和reduce类
        job.setMapperClass(WordcountMapper.class);
        job.setReducerClass(WordcountReducer.class);

        // 4 设置map输出
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        // 5 设置最终输出kv类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        
        // 6 设置输入和输出路径
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        // 7 提交
        boolean result = job.waitForCompletion(true);

        System.exit(result ? 0 : 1);
    }
}

5．本地测试
（1）需要首先配置好HADOOP_HOME变量以及Windows运行依赖
（2）在Eclipse/Idea上运行程序

使用Hadoop3以上，不建议使用windows来编写mr的程序，建议使用linux环境来编写

6．集群上测试
（0）用maven打jar包，如果有需要一并打进去的依赖，需要添加打包插件
注意：标记红颜色的部分需要替换为自己工程主类

注意：如果工程上显示红叉。在项目上右键->maven->reimport即可。
（1）将程序打成jar包，然后拷贝到Hadoop集群中
步骤详情：Maven ->lifecycle-> package。等待编译完成就会在项目的target文件夹中生成jar包。如果看不到。在项目上右键 -> Refresh，即可看到。修改不带依赖的jar包名称为wc.jar，并拷贝该jar包到Hadoop集群。
（2）启动Hadoop集群
（3）执行WordCount程序

[dev1 @hadoop102 software]$ hadoop jar  wc.jar
 com.dev1 .wordcount.WordcountDriver /user/dev1/input  /user/dev1/output

1.9 CentOS7扩展磁盘空间

1.停止虚拟机运行
在VMware中将虚拟机停止

进行虚拟机磁盘扩容
在这里插入图片描述

2.查看磁盘占用情况
df -h

分析：我磁盘扩容20G，为啥磁盘大小没有变化，总结如下：

2.查看CentOS7的磁盘分区情况

在这里插入图片描述

执行进行查看，发现sda并没有分区，所以需要我们手动分区
在这里插入图片描述

3.设置sda3磁盘空间为我们的可用空间

在这里插入图片描述

通过执行命令：fdisk -l发现sda3的id是83，我们需要将sda3的id的system改成和sda2一样
在这里插入图片描述

4.修改sda3的id和system

运行命令：fdisk /dev/sda,执行参数: t->3->L->8e->w

5.再次查看磁盘的分区情况

sudo fdisk -l

6.将文件格式改为ext4

注意:如果执行命令sudo mkfs.ext4 /dev/sda3出现如上图错误，是因为你的内核没有和分区同步，所以可以在终端直接输入sudo partprobe重新读取分区表即可，然后再次执行命令：sudo mkfs.ext4 /dev/sda3，如下图所示：
在这里插入图片描述

7.开始扩容
创建物理卷：

在这里插入图片描述

将物理卷加入到卷组：
在这里插入图片描述

可以看到Free size增加了
在这里插入图片描述

将卷组剩余空间(刚添加的20G)添加到逻辑卷/dev/centos/root :
lvm> lvextend -l +100%FREE /dev/centos/root
在这里插入图片描述

使用Ctrl+C强制退出
同步到文件系统：
之前只是对逻辑卷扩容，还要同步到文件系统，实现对根目录的扩容

sudo xfs_growfs /dev/centos/root

然后再查看挂载情况：
df -h
在这里插入图片描述

可以发现/dev/mapper/cl-root已经挂载上新扩展的磁盘大小

1.10 Linux maven配置

(1)上传
apache-maven-3.3.9-bin.tar.gz
(2)解压
(3)配置路径

 <localRepository>/opt/module/repo</localRepository>

创建目录

mkdir -p /opt/module/repo

(4)在setttings.xml配置阿里云镜像

<mirror>  
        <id>nexus-aliyun</id>  
        <mirrorOf>central</mirrorOf>    
        <name>Nexus aliyun</name>  
        <url>http://maven.aliyun.com/nexus/content/groups/public</url>  
</mirror>