数据倾斜排查

news/2024/7/2 23:49:30

一、问题现象
租户反馈,任务执行时长加长,执行过程中任务卡在 99%,大概率是出现了数据倾斜
二、排查过程
数据倾斜大多数都是大 key 问题导致的。排查方法如下:
1.时间判断
请添加图片描述
reduce 的时间比其他 reduce 时间长的多,大部分 task 在 1 分钟左右完成,只有 r_000095 这个 task 执行一个多小时还没完成。
如果每个 reduce 执行时间差不多,都特别长,不一定是数据倾斜导致的,可能是 reduce 设置过少导致的;有时候,某个 task 执行的节点可能有问题,导致任务跑的特别慢。这个时候,mapreduce 的推测执行,会重启一个任务。如果新的任务在很短时间内能完成,通常则是由于 task 执行节点问题导致的个别 task 慢。但是如果推测执行后的 task 执行任务也特别慢,那更说明该 task 可能会有倾斜问题。
2.通过任务 Counter 判断
Counter 会记录整个 job 以及每个 task 的统计信息:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
比较不同的 task counter 的输入记录数,看是否有很大的数据量的差距。
3.定位 SQL 代码
具体请参照:大神博文地址


http://lihuaxi.xjx100.cn/news/1293887.html

相关文章

从四个角度全面认识 ChatGPT

传统语言模型是什么样的?ChatGPT 涌现出了哪些新能力?这些能力都是怎么做到的?在 ChatGPT 大模型时代,我们应该怎么做? 当下最引人注目的语言模型 ChatGPT 如火如荼,主要还是因为其能力远远超越了传统模型。…

劫持react组件

劫持props 假设我们有一个原组件&#xff0c;它接收一个 name prop&#xff0c;并显示一个问候语&#xff1a; // 原组件 function Greeting(props) {return <h1> Hello, {props.name}! </h1>; }我们可以定义一个高阶组件&#xff0c;它可以通过 props 传递一个 …

Linux教程——Linux用户和用户组(包含两者之间的关系)

Linux 是多用户多任务操作系统&#xff0c;换句话说&#xff0c;Linux 系统支持多个用户在同一时间内登陆&#xff0c;不同用户可以执行不同的任务&#xff0c;并且互不影响。 例如&#xff0c;某台 Linux 服务器上有 4 个用户&#xff0c;分别是 root、www、ftp 和 mysql&…

PDF如何转换成Word?PDF转Word方法分享!​

PDF大家都不陌生了吧&#xff1f;作为打工人&#xff0c;学生党的大家都知道&#xff0c;PDF是现在不可或缺的文件传输工具之一&#xff0c;不仅可将文档转为Word&#xff0c;还可以转成excel,ppt等各种形式&#xff0c;其重要性不言而喻&#xff0c;那么今天小编就跟大家具体说…

【Java】直接return 会触发try-catch 里面的finally的方法么

&#x1f431;‍&#x1f680;/背景 try-catch 主要的作用是捕获异常&#xff0c;那么程序没有异常&#xff0c;finally里面代码能否执行&#xff1f; 特别是如果我们前面进行了加锁等操作&#xff0c;没有释放锁&#xff0c;那不是会造成业务逻辑问题, 先说结论&#xff1a;…

【Vue】axios发请求下载excel--20230630

1.关键点&#xff1a; blob乱码传参 2.参考资料&#xff1a;处理blob文件流和乱码问题 https://blog.csdn.net/qq_41512902/article/details/125680531 https://blog.csdn.net/qq_38804584/article/details/109238794 3.我的代码&#xff1a;axios发请求下载excel js代…

JAVA开发运维(linux环境防火墙与端口开启使用总结记录)

一、问题背景&#xff1a; 将web项目开发完成&#xff0c;需要上到生产环境。那么我们应用调用的一些ip&#xff0c;端口都是要设置的&#xff0c;比如说应用提供给谁访问&#xff0c;那些人不能访问&#xff0c;应用的端口是多少&#xff0c;也是需要开启才能访问的。在实际研…

git杀手级功能 —— 分支管理

目录 分支介绍 创建分支 切换分支 和并分支 删除分支 合并冲突 分支管理策略 分支策略 bug分支 其他问题 强行删除临时分支 结语 分支介绍 在版本回退里发现&#xff1a;每次提交&#xff0c;git都会把它们穿成一条时间线&#xff0c;而这条时间线就可以理解为一个分支…