| 1 MapReduce概述1.1 MapReduce定义Mapreduce是一个分布式运算程序的编程框架,是用户开发"基于hadoop的数据分析应用"的核心框架; Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。 1.2 MapReduce优缺点1.2.1 优点(1)MapReduce 易于编程。它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的 PC 机器运行。也就是说你写一个分布式程序,跟写一个简单的串行程序是一模一样的。 就是因为这个特点使得 MapReduce 编程变得非常流行。(2)良好的扩展性。当你的计算资源不能得到满足的时候,你可以通过简单的增加机器来扩展它的计算能力。(3)高容错性。MapReduce 设计的初衷就是使程序能够部署在廉价的 PC 机器上,这就要求它具有很高的容错性。比如其中一台机器挂了,它可以把上面的计算任务转移到另外一个节点上面上运行,不至于这个任务运行失败,而且这个过程不需要人工参与,而完全是由 Hadoop 内部完成的。(4)适合 PB 级以上海量数据的离线处理。这里加红字体离线处理,说明它适合离线处理而不适合在线处理。比如像毫秒级别的返回一个结果,MapReduce 很难做到。
 1.2.2 缺点(1)不擅长做实时计算。MapReduce 无法像 Mysql 一样,在毫秒或者秒级内返回结果。(2)不擅长做流式计算。流式计算的输入数据时动态的,而 MapReduce 的输入数据集是静态的,不能动态变化。这是因为 MapReduce 自身的设计特点决定了数据源必须是静态的。(3)不擅长做DAG(有向图)计算。多个应用程序存在依赖关系,后一个应用程序的输入为前一个的输出。在这种情况下,MapReduce 并不是不能做,而是使用后,每个MapReduce 作业的输出结果都会写入到磁盘,会造成大量的磁盘IO,导致性能非常的低下。
 1.3 MapReduce核心思想
 (1)分布式的运算程序往往需要分成至少2个阶段。(2)第一个阶段的MapTask并发实例,完全并行运行,互不相干。(3)第二个阶段的ReduceTask并发实例互不相干,但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。(4)MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段,如果用户的业务逻辑非常复杂,那就只能多个MapReduce程序,串行运行。总结:分析WordCount数据流走向深入理解MapReduce核心思想。
 1.4 MapReduce进程一个完整的mapreduce程序在分布式运行时有三类实例进程: (1)MrAppMaster:负责整个程序的过程调度及状态协调。(2)MapTask:负责map阶段的整个数据处理流程。(3)ReduceTask:负责reduce阶段的整个数据处理流程。
 1.5 官方WordCount源码采用反编译工具反编译源码,发现WordCount案例有Map类、Reduce类和驱动类。且数据的类型是Hadoop自身封装的序列化类型。 1.6 常用数据序列化类型
 1.7 MapReduce编程规范用户编写的程序分成三个部分:Mapper、Reducer和Driver。》》1 Mapper阶段
 (1)用户自定义的Mapper要继承自己的父类(2)Mapper的输入数据是KV对的形式(KV的类型可自定义)(3)Mapper中的业务逻辑写在map()方法中(4)Mapper的输出数据是KV对的形式(KV的类型可自定义)(5)map()方法(maptask进程)对每一个<K,V>调用一次》》2 Reducer阶段
(1)用户自定义的Reducer要继承自己的父类(2)Reducer的输入数据类型对应Mapper的输出数据类型,也是KV(3)Reducer的业务逻辑写在reduce()方法中(4)Reducetask进程对每一组相同k的<k,v>组调用一次reduce()方法》》3 Driver阶段
 整个程序需要一个
 Drvier来进行提交,提交的是一个描述了各种必要信息的job对象
 1.8 WordCount案例实操1.需求在给定的文本文件中统计输出每一个单词出现的总次数
 (1)输入数据
 dev1 dev1 
banzhang
cls cls
 (2)期望输出数据 dev1     2
banzhang    1
cls    2
 2.需求分析按照MapReduce编程规范,分别编写Mapper,Reducer,Driver
 》》1输入数据
 hadoop hdfs 
mr mr
 》》2输出数据 hadoop 1
hdfs 1
mr 2
 》》3 Mapper3.1 将MapTask传给我们的文本内容先转换成String
 3.2 根据空格将这一行切分成单词
 3.3 将单词输出为<单词,1>
 》》4 Reducer
 4.1 汇总各个key的个数
 4.2 输出该key的总次数
 》》5 Driver
 5.1 获取配置信息,获取job对象实例
 5.2 指定本程序的jar所在的路径
 5.3 关联Mapper/Reducer的业务类
 5.4 指定Mapper输出数据的kv类型
 5.5 指定最终输出的数据的kv类型
 5.6 指定job的输入原始文本所在目录
 5.7 指定job的输出结果所在目录
 5.8 提交作业
 3.环境准备(1)创建maven工程
 (2)在pom.xml文件中添加如下依赖
 <dependencies>
    <dependency>
        <groupId>junit</groupId>
        <artifactId>junit</artifactId>
        <version>4.12</version>
    </dependency>
    <dependency>
        <groupId>org.apache.logging.log4j</groupId>
        <artifactId>log4j-slf4j-impl</artifactId>
        <version>2.12.0</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-client</artifactId>
        <version>3.1.3</version>
    </dependency>
</dependencies>
 (2)在项目的resources目录下,新建一个文件,命名为log4j2.xml,在文件中填入。 <?xml version="1.0" encoding="UTF-8"?>
<Configuration status="error" strict="true" name="XMLConfig">
    <Appenders>
        
        <Appender type="Console" name="STDOUT">
            
            <Layout type="PatternLayout"
                    pattern="[%p] [%d{yyyy-MM-dd HH:mm:ss}][%c{10}]%m%n" />
        </Appender>
    </Appenders>
    <Loggers>
        
        <Logger name="test" level="info" additivity="false">
            <AppenderRef ref="STDOUT" />
        </Logger>
        
        <Root level="info">
            <AppenderRef ref="STDOUT" />
        </Root>
    </Loggers>
</Configuration>
 package com.dev1.mapreduce;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
public class WordcountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{
    
    Text k = new Text();
    IntWritable v = new IntWritable(1);
    
    @Override
    protected void map(LongWritable key, Text value, Context context)    throws IOException, InterruptedException {
        
        
        String line = value.toString();
        
        
        String[] words = line.split(" ");
        
        
        for (String word : words) {
            
            k.set(word);
            context.write(k, v);
        }
    }
}
 (2)编写Reducer类 package com.dev1.mapreduce.wordcount;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
public class WordcountReducer extends Reducer<Text, IntWritable, Text, IntWritable>{
int sum;
IntWritable v = new IntWritable();
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException {
        
        
        sum = 0;
        for (IntWritable count : values) {
            sum += count.get();
        }
        
        
       v.set(sum);
        context.write(key,v);
    }
}
 (3)编写Driver驱动类 package com.dev1.mapreduce.wordcount;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class WordcountDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        
        Configuration configuration = new Configuration();
        Job job = Job.getInstance(configuration);
        
        job.setJarByClass(WordcountDriver.class);
        
        job.setMapperClass(WordcountMapper.class);
        job.setReducerClass(WordcountReducer.class);
        
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        
        
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        
        boolean result = job.waitForCompletion(true);
        System.exit(result ? 0 : 1);
    }
}
 5.本地测试(1)需要首先配置好
 HADOOP_HOME变量以及Windows运行依赖(2)在Eclipse/Idea上运行程序
 使用Hadoop3以上,不建议使用windows来编写mr的程序,建议使用linux环境来编写
 6.集群上测试(0)用maven打jar包,如果有需要一并打进去的依赖,需要添加打包插件
 注意:
 标记红颜色的部分需要替换为自己工程主类
 注意:如果工程上显示红叉。在项目上右键->maven->reimport即可。(1)将程序打成jar包,然后拷贝到Hadoop集群中
 步骤详情:Maven ->lifecycle-> package。等待编译完成就会在项目的target文件夹中生成jar包。如果看不到。在项目上右键 -> Refresh,即可看到。修改不带依赖的jar包名称为
 wc.jar,并拷贝该jar包到Hadoop集群。(2)启动Hadoop集群
 (3)执行WordCount程序
 [dev1 @hadoop102 software]$ hadoop jar  wc.jar
 com.dev1 .wordcount.WordcountDriver /user/dev1/input  /user/dev1/output
 1.9 CentOS7扩展磁盘空间1.停止虚拟机运行在VMware中将虚拟机停止
 
 
 进行虚拟机磁盘扩容
  2.查看磁盘占用情况
 df -h
 
 分析:我磁盘扩容20G,为啥磁盘大小没有变化,总结如下: 
 执行进行查看,发现sda并没有分区,所以需要我们手动分区
  
 通过执行命令:fdisk -l发现sda3的id是83,我们需要将sda3的id的system改成和sda2一样
  4.修改sda3的id和system
  
 
 运行命令:fdisk /dev/sda,执行参数: t->3->L->8e->w
 sudo fdisk -l
 注意:如果执行命令sudo mkfs.ext4 /dev/sda3出现如上图错误,是因为你的内核没有和分区同步,所以可以在终端直接输入sudo partprobe重新读取分区表即可,然后再次执行命令:sudo mkfs.ext4 /dev/sda3,如下图所示:
  7.开始扩容创建物理卷:
 
 
 
 将物理卷加入到卷组:
  可以看到Free size增加了
  将卷组剩余空间(刚添加的20G)添加到逻辑卷/dev/centos/root:
 lvm> lvextend -l +100%FREE /dev/centos/root
  使用Ctrl+C强制退出同步到文件系统:
 之前只是对逻辑卷扩容,还要同步到文件系统,实现对根目录的扩容
 sudo xfs_growfs /dev/centos/root
 然后再查看挂载情况:
 df -h
  
  可以发现/dev/mapper/cl-root已经挂载上新扩展的磁盘大小 1.10 Linux maven配置(1)上传
 apache-maven-3.3.9-bin.tar.gz(2)解压(3)配置路径
  <localRepository>/opt/module/repo</localRepository>
 创建目录 mkdir -p /opt/module/repo
 <mirror>  
        <id>nexus-aliyun</id>  
        <mirrorOf>central</mirrorOf>    
        <name>Nexus aliyun</name>  
        <url>http://maven.aliyun.com/nexus/content/groups/public</url>  
</mirror> 
 1.11 idea在linux下安装(1)上传
 ideaIC-2021.1.3.tar.gz(2)解压
 /usr/local/
  (3)启动
 ./idea.sh (4)配置maven
 
 
 参考wordcount案例,搭建环境,编写wordcount程序,然后运行
  |