hadoop 详解如何实现数据排序-FinClip官网

hadoop 详解如何实现数据排序

网友投稿 1113 2022-10-28

hadoop 详解如何实现数据排序

目录前言MapReduce排序MapReduce排序分类1、部分排序2、全排序3、辅助排序4、二次排序自定义排序案例1、自定义一个Bean对象，实现WritableComparable接口2、自定义Mapper3、自定义Reducer4、自定义Driver类分区内排序案例1、添加自定义分区2、改造Driver类

前言

在hadoop的MapReduce中，提供了对于客户端的自定义排序的功能相关API

MapReduce排序

默认情况下，MapTask 和ReduceTask均会对数据按照key进行排序

默认的排序按照字典序，且实现排序的方法是快排

MapReduce排序分类

1、部分排序

MapReduce根据输入记录的键值对数据集总体排序，确保输出的文件内部数据有序

2、全排序

最终的输出结果只有一个文件，且内部有序，实现方式是只设置一个ReduceTask，但是这种做法在处理的某个文件特别大的时候，效率会非常低，这也就丧失了MapReduce提供的并行处理任务的能力

3、辅助排序

在Reduce端对key进行分组，比如说，在接收的key为bean对象的时候，想让一个或多个字段相同的key进入到同一个reduce方法时，可以采用分组排序

4、二次排序

在自定义排序中，compareto的判断条件为两个或者多个时即为二次排序

自定义排序案例

还记得在序列化一篇中，那个针对手机号的峰值流量和峰谷流量的例子吧，我们直接以该案例的输出结果为输入数据，对这个结果文件中按照总流量进行排序

期望输出数据的格式如：

1、自定义一个Bean对象，实现WritableComparable 接口

实现该接口后，重写compareTo方法，需要排序的字段逻辑就在compareTo中编写

import org.apache.hadoop.io.WritableComparable;

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

public class PhoneSortBean implements WritableComparable {

//峰值流量

private long upFlow;

//低谷流量

private long downFlow;

//总流量

private long sumFlow;

@Override

public int compareTo(PhoneSortBean o) {

if (this.sumFlow > o.sumFlow) {

return -1;

}else if(this.sumFlow < o.sumFlow){

return 1;

}else {

return 0http://;

}

//提供无参构造

public PhoneSortBean() {

}

//提供三个参数的getter和setter方法

public long getUpFlow() {

return upFlow;

}

public void setUpFlow(long upFlow) {

this.upFlow = upFlow;

}

public long getDownFlow() {

return downFlow;

}

public void setDownFlow(long downFlow) {

this.downFlow = downFlow;

}

public long getSumFlow() {

return sumFlow;

}

public void setSumFlow(long sumFlow) {

this.sumFlow = sumFlow;

}

public void setSumFlow() {

this.sumFlow = this.upFlow + this.downFlow;

}

//实现序列化和反序列化方法,注意顺序一定要保持一致

@Override

public void write(DataOutput dataOutput) throws IOException {

dataOutput.writeLong(upFlow);

dataOutput.writeLong(downFlow);

dataOutput.writeLong(sumFlow);

}

@Override

public void readFields(DataInput dataInput) throws IOException {

this.upFlow = dataInput.readLong();

this.downFlow = dataInput.readLong();

this.sumFlow = dataInput.readLong();

}

//重写ToString方法

@Override

public String toString() {

return upFlow + "\t" + downFlow + "\t" + sumFlow;

}

2、自定义Mapper

设想一下，既然数据能排序，Map阶段输出的key应该为自定义的可比较的对象，即为上面的这个bean，value为手机号

import org.apache.commons.lang3.StringUtils;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

import java.util.LinkedList;

public class SortPhoneMapper extends Mapper {

private Text outV = new Text();

private PhoneSortBean outK = new PhoneSortBean();

@Override

protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

String line = value.toString();

//分割数据

String[] splits = line.split("\t");

LinkedList linkedList = new LinkedList<>();

for(String str:splits){

if(StringUtils.isNotEmpty(str)){

linkedList.add(str.trim());

}

//抓取需要的数据:手机号,上行流量,下行流量

String phone = linkedList.get(0);

String max = linkedList.get(1);

String mine = linkedList.get(2);

//封装outK outV

outV.set(phone);

outK.setUpFlow(Long.parseLong(max));

outK.setDownFlow(Long.parseLong(mine));

outK.setSumFlow();

//写出outK outV

context.write(outK, outV);

}

3、自定义Reducer

Reduce阶段的输出结果仍然以手机号为key，而value为排序后的自定义的bean

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class SortPhoneReducer extends Reducer {

@Override

protected void reduce(PhoneSortBean key, Iterable values, Context context) throws IOException, InterruptedException {

for (Text value : values) {

context.write(value,key);

}

4、自定义Driver类

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class SortPhoneJob {

public static void main(String[] args) throws Exception {

//1 获取job对象

Configuration conf = new Configuration();

Job job = Job.getInstance(conf);

//2 关联本Driver类

job.setJarByClass(SortPhoneJob.class);

//3 设置Mahttp://p端输出KV类型

job.setReducerClass(SortPhoneReducer.class);

job.setMapperClass(SortPhoneMapper.class);

//4 关联Mapper和Reducer

job.setMapOutputKeyClass(PhoneSortBean.class);

job.setMapOutputValueClass(Text.class);

//5 设置程序最终输出的KV类型

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(PhoneSortBean.class);

//6 设置程序的输入输出路径

String inPath = "F:\\网盘\\csv\\phone_out_bean.txt";

String outPath = "F:\\网盘\\csv\\phone_out_sort";

FileInputFormat.setInputPaths(job, new Path(inPath));

FileOutputFormat.setOutputPath(job, new Path(outPath));

//7 提交Job

boolean b = job.waitForCompletion(true);

System.exit(b ? 0 : 1);

}

运行上面的程序，观察输出结果，可以看到，总流量按照从大到小的顺序进行了排序

可以看到，最后的3行数据中，总流量相同，如果这时候又提出一个需求，当总流量相同时，再按照峰值流量进行排序，该怎么做呢？

其实只需要在自定义的bean中的compareto方法里面继续添加排序逻辑即可

public int compareTo(PhoneSortBean o) {

if (this.scFiXRFVruumFlow > o.sumFlow) {

return -1;

}else if(this.sumFlow < o.sumFlow){

return 1;

}else {

//如果总流量相同的情况下，再按照峰值流量排序

if(this.upFlow > o.upFlow){

return -1;

}else if(this.upFlow < o.upFlow){

return 1;

}else {

return 0;

}

分区内排序案例

业务需求，上面的案例中，我们进一步提出新的需求，针对不同的手机号最终写到不同的文件中，那么在上面的基础上，还需要结合自定义分区的逻辑

需要改造的包括2点：

添加一个自定义分区器，按照业务规则指定分区号

改造Driver类，添加自定义分区器，设置MapReduceTask任务个数

1、添加自定义分区

public class MyPartioner extends Partitioner {

@Override

public int getPartition(MyPhoneBean myPhoneBean, Text text, int partion) {

String phone = text.toString();

if(phone.startsWith("135")){

return 0;

}else if(phone.startsWith("136")){

return 1;

}else if(phone.startsWith("137")){

return 2;

}else {

return 3;

}

2、改造Driver类

其他的逻辑和上面的保持一致即可

public class MyDriver {

public static void main(String[] args) throws Exception {

//1 获取job对象

Configuration conf = new Configuration();

Job job = Job.getInstance(conf);

//2 关联本Driver类

job.setJarByClass(MyDriver.class);

//3 设置Map端输出KV类型

job.setMapperClass(MyMapper.class);

job.setReducerClass(MyReducer.class);

//4 关联Mapper和Reducer

job.setMapOutputKeyClass(MyPhoneBean.class);

job.setMapOutputValueClass(Text.class);

//5 设置程序最终输出的KV类型

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(MyPhoneBean.class);

//6、设置输出文件为2个

job.setNumReduceTasks(4);

job.setPartitionerClass(MyPartioner.class);

//7、设置程序的输入输出路径

String inPath = "F:\\网盘\\csv\\phone_out_bean.txt";

String outPath = "F:\\网盘\\csv\\phone_out_sort";

FileInputFormat.setInputPaths(job, new Path(inPath));

FileOutputFormat.setOutputPath(job, new Path(outPath));

//7 提交Job

boolean b = job.waitForCompletion(true);

System.exit(b ? 0 : 1);

}

运行上面的程序，然后随机打开其中的两个文件检查下是否满足上面的需求，可以看到，文件最终输出到4个分区文件下，并且每个分区文件内的总流量也是按照从高到低的顺序

微前端架构如何改变企业的开发模式与效率提升

1113 2022-10-28

hadoop 详解如何实现数据排序

微前端架构如何改变企业的开发模式与效率提升

前端开源框架如何提升开发效率与用户体验的关键因素

前端移动端框架如何推动数字化转型与创新发展

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计