【大数据之Hadoop】十三、MapReduce之WritableComparable排序

news/2024/7/5 1:44:00

MapReduce框架必须进行排序,MapTask和ReduceTask都会对key按字典顺序排序,是默认的行为(默认使用快速排序),有利于提高效率。任何程序数据都会进行排序,不管逻辑是否需要。
对于排序而言分为两个阶段,MapTask后和ReduceTask前。

MapTask后的阶段:
MapTask把处理结果暂时放到环形缓冲区,当环形缓冲区的使用率达到一定阈值(80%)时,对其进行一次快速排序,然后将有序数据写到磁盘上。
当数据处理完后,磁盘上的所有文件再进行一次快速排序。
在这里插入图片描述
ReduceTask前的阶段:
ReduceTask从每个MapTask上拉取数据存储在内存上,如果文件太大则溢出写道磁盘。
如果磁盘上的文件数目达到一定阈值时,则进行一次归并排序,生成更大的文件。
如果内存中文件大小或者数目达到一定阈值时,也进行一次合并排序后写到磁盘上。
当所有数据拉取完毕后,ReduceTask统一对内存和磁盘上的所有数据进行一次归并排序。
在这里插入图片描述
(1)部分排序:MapReduce根据输入的键进行排序,保证输出的每个文件内部的有序。
(2)全排序:最终输出结果只有一个文件,且文件内部有序。(实现:只设置一个ReduceTask,处理大型文件效率很低,相当于只有一台机器处理文件)
(3)辅助排序(GroupingComparator分组):在reduce端对key进行分组。(用于在接受key为bean对象时让一个或多个字段相同的key进入到同一个reduce方法)
(4)二次排序:自定义排序中,compareTo的判断条件为2个时。

原理:
bean对象做为key传输,需要实现WritableComparable接口重写compareTo方法进行排序。

@Override
public int compareTo(FlowBean bean) {

    int result;
        
    //按照总流量大小,倒序排列
    if(this.sumFlow > bean.getSumFlow()) {
        result= -1;
    }elseif (this.sumFlow < bean.getSumFlow()) {
        result= 1;
    }else{
        result= 0;
    }

    return result;
}

http://lihuaxi.xjx100.cn/news/1021399.html

相关文章

响应式UI部件DevExtreme v22.2.5全新发布

DevExtreme拥有高性能的HTML5 / JavaScript小部件集合&#xff0c;使您可以利用现代Web开发堆栈&#xff08;包括React&#xff0c;Angular&#xff0c;ASP.NET Core&#xff0c;jQuery&#xff0c;Knockout等&#xff09;构建交互式的Web应用程序。从Angular和Reac&#xff0c…

说走就走的旅行?你需要一个旅行必备清单

可能很多朋友都不用清单这个东西&#xff0c;更别说清单模版了。那清单真的好用吗&#xff1f;说实话&#xff0c;当你真的用清单来整理自己的日常工作&#xff0c;乃至生活琐事后&#xff0c;你就会发现你的时间多了&#xff0c;想要完成的事&#xff0c;大部分都可以按时完成…

MZ深度解读SAP常见财务问题-02-账套在哪里?

发文词&#xff1a;类似于新刊物的“发刊词”&#xff0c;我们也写两句发文词。笔者前些年关于SAP的文字主要包括“SAP那些事”系列文章中了&#xff0c;这些文章的视角主要是从顾问的角度进行描述的&#xff0c;侧重的也是系统功能和顾问职业的描述。 最近&#xff0c;笔者认…

【网络应用开发】实验3——Web组件重用与JavaBeans

目录 Web组件重用与JavaBeans预习报告 一、实验目的 二、实验原理 三、实验预习内容 1. 静态include指令何时执行&#xff1f;主页面和被包含的子页面是否转换为一个转换单元&#xff1f; 2.动作指令何时执行&#xff1f;主页面和被包含的子页面是否转换为一个转换单元&a…

PyTorch 之 基于经典网络架构训练图像分类模型

文章目录一、 模块简单介绍1. 数据预处理部分2. 网络模块设置3. 网络模型保存与测试二、数据读取与预处理操作1. 制作数据源2. 读取标签对应的实际名字3. 展示数据三、模型构建与实现1. 加载 models 中提供的模型&#xff0c;并且直接用训练的好权重当做初始化参数2. 参考 pyto…

【python设计模式】22、责任链模式

责任链模式&#xff08;Chain of Responsibility Pattern&#xff09;是一种行为型设计模式&#xff0c;它允许多个对象都有机会处理请求&#xff0c;从而避免请求的发送者和接收者之间的耦合关系。这种模式建议让请求的发送者和接收者形成一条链&#xff0c;并沿着这条链传递请…

【c语言】二维数组与指针 存储原理

创作不易&#xff0c;本篇文章如果帮助到了你&#xff0c;还请点赞支持一下♡>&#x16966;<)!! 主页专栏有更多知识&#xff0c;如有疑问欢迎大家指正讨论&#xff0c;共同进步&#xff01; 给大家跳段街舞感谢支持&#xff01;ጿ ኈ ቼ ዽ ጿ ኈ ቼ ዽ ጿ ኈ ቼ ዽ ጿ…

《MySQL是怎样运行的》读书笔记 2:查询优化

十、单表访问方法 MySQL执行查询语句的方式称为访问方法或者访问类型。 1 访问方法 1) const&#xff1a;通过主键或者唯一二级索引列来定位一条记录。 2) ref&#xff1a;搜索条件为二级索引列与常数进行等值比较&#xff0c;形成的扫描区间为单点扫描区间&#xff0c;采用…