专访lan哥:大龄奶爸学竞赛

news/2024/7/3 2:37:00

个人简介

给大家介绍下自己吧,个人信息、个人社交(github、知乎、csdn)地址、个人经历、竞赛经历

大家好,我是一枚工作多年先做了奶爸之后才入坑数据挖掘竞赛的新人选手,江湖ID:小白Lan,目前在长沙工作。

作为一个工作多年并一直对python、数据挖掘的感兴趣的老人。我是2014年从华南理工大学硕士毕业参加工作,但是一直到2019年底在一门python全栈线上课程中才了解到数据挖掘竞赛的。

所以如果有对数据挖掘感兴趣的小伙伴,一定要趁早学习呀。在了解到竞赛后,开始在kaggle跟天池上做一些简单的学习赛。在学习了一段时间后,蠢蠢欲动,参加了DCIC2020跟2020腾讯广告算法大赛,结果被虐得体无完肤。

至此才发现真正的数据挖掘竞赛跟学习赛相差还是有点大的;也是至此才发现作为竞赛新人一定要避开热门的赛事才能获得较好的竞赛体验,比如奖金超高、报名人数超多的赛事,基本都是神仙在打架。以下是我参赛的部分情况:

个人参赛:

  • 2021山东第二届数据应用大赛--供水管网压力预测(6/522)

  • 2020首届数字四川省创新大赛--诈骗电话识别(13/1061)

组队参赛:

  • 2020CCF大数据与计算智能大赛--Serverless工作负载预测(5/2728)

  • 2020第四届工业大数据创新竞赛--水电站入库流量预测(13/879)

其他的如,研习社高铁乘客流量预测rank3、电影票房预测rank1,天池nlp中文预训练泛化挑战top4%,还有大佬丫丫哥带躺的58同城2020第一届AI算法大赛rank7。

个人博客:

  • github:https://github.com/js-lan

  • 知乎:https://www.zhihu.com/people/js_lan

学习过程

知识点的学习过程、对什么方面比较熟悉?

知识点的学习上个人还是比较坚信“learning by doing”会更为有效、深刻。边做边学相当于将学到的知识点直接转化到实际应用中,是非常有意思的一个过程。

整体上,我个人走的是学习赛--实际参赛这么一个边做边学的学习过程。目前参赛过的赛题类型有一般的结构化分类或回归、时序预测、nlp,参加得较多的是shake最普遍存在的时序预测题。

竞赛经历

参加过什么竞赛,有什么收获,或者难忘的经历?

入坑这一年多,大大小小的比赛参与了十余场,可以说每一场都获得了宝贵的经验。特别是top选手的开源,有的选手的解决方案真的可以说是惊为天人。

但在参赛过程中结识一群亦师亦友数据挖掘爱好者,这应该是最大的收获。很幸运在学习的路上能认识一群这么可爱的人,特别是一些大三大四的小伙子让我意识到现在的大学生是多么的优秀!

另外,最有意思的经历应该是做2020CCF的赛事,一路上我们从十几二十名,吭哧吭哧的做到了A榜第九。同时在切榜前的前一天我们提出了一种针对该题的融模方法,该方法不仅让我们的分数得到了提升,更是有效的保证了我们方案的稳定性。最终结果显示,我们的方案在所有前排方案中是最稳定的,A/B榜分数相差最小,稳稳地拿到了B榜第五的成绩。

竞赛分享

可以选一个知识点或者竞赛进行分享。

个人的一点经验总结:建模千万条,EDA第一条;特征不给力,模型两行泪。 关于EDA有多重要,可以给大家介绍一下2021山东第二届数据应用大赛中供水管网压力预测复赛时,我是如何在简单EDA分析后一发入魂锁定rank6的经历。

赛题地址:http://data.sd.gov.cn/cmpt/cmptDetail.html?id=24

数据介绍

  • 初赛:

很常规的时序预测题,给定2018跟2019的全量数据,再给出2020部分时间段的数据预测接下来一段时间的值(部分是与已知数据间隔了几天后的时间段)。

  • 复赛:

复赛阶段更新了训练集,提供部分初赛阶段答案,分别为以下时段:

  1. 2020/4/6 - 2020/4/12

  2. 2020/6/1 - 2020/6/7

  3. 2020/9/7 - 2020/9/13

需要选手预测的新时段为:

  1. 2020/4/20 - 2020/4/26

  2. 2020/6/15 - 2020/6/21

  3. 2020/9/21 - 2020/9/27

复赛分析

做过时序题的同学应该知道,如果时序题复赛是有更新数据集的复赛,基本上初赛的模型都不能直接套用,差不多都得推到重来。

然后该次复赛更新了训练集、缩减了预测段,同时持续三天,每天能提交一次。这下问题来了。根据经验,初赛模型是不能用了,那么如何在仅有的三次提交中获得较好的分数呢?这时候EDA就很关键也势在必行了。

EDA分析

既然给了距离最靠近预测段的数据,那就先画图看看每个站点管网压力的波动变化:

好家伙,这靠近预测段的波动变化简直稳如old dog了。还想啥,删除异常值,直接怼一个规则提交(初赛时已经有选手分享纯规则能上分)!

赛题分数

事实证明简单分析后直接怼规则的思路是正确的,一发入魂7.583分暂时进入第一次提交的top1。最后两次提交尝试了规则加模型融合,然而分数并没有提升。虽然最后三次提交完后名列rank6,但在赛题交流群看了下大家的聊天,前排有好几个选手是靠最后一次提交规则才上去的,哈哈。

干货分享,三连


http://lihuaxi.xjx100.cn/news/258073.html

相关文章

1、Linux汇编——初识汇编

2019独角兽企业重金招聘Python工程师标准>>> 前序 本来想Qt能继续坚持下来,可是绕了一大圈,最终还是选择回到学期伊始的Linux汇编编程上来。鉴于图书馆只能借到这本书,虽然不厚,但是内容还是比较实用丰富,作…

Java 8 中的这个接口真好用!

在开发过程中经常会使用if...else...进行判断抛出异常、分支处理等操作。这些if...else...充斥在代码中严重影响了代码代码的美观,这时我们可以利用Java 8的Function接口来消灭if...else...。if (...){throw new RuntimeException("出现异常了")&#xff…

博士生制毒被抓,只因得不到家人认可,想快速致富...

点击上方“视学算法”,选择加"星标"或“置顶”重磅干货,第一时间送达本文来源:环球时报、天台县公安局等近期,内蒙古通辽市警方成功侦破一起公安部毒品目标案件,捣毁制毒窝点2处,缴获冰毒 407 克…

windows远程桌面如果超出最大连接数, 使用命令行mstsc /console登录即可

远程桌面如果超出最大连接数, 使用命令行mstsc /console登录即可。 (也可以用 mstsc /admin) 可以在运行里使用mstsc /console /v:IP:远程端口即可强制登录; 如果直接在远程桌面连接端使用就直接输入/console /v:IP:远程端口. 如:mstsc /cons…

lemon的简单使用

lemon概述 lemon是LALR(1)的用于c或c的解析器与生成器,与大名鼎鼎的bison与yacc做类似的工作,但又不是简单复制它们的功能,lemon使用了设计了不同的语法格式来减少编码的错误,lemon还使用了比yacc和bison更快的更复杂的解析引擎&…

为何我的BLOG不能DIY?

今天想把MODULE调整一下,居然搞不定。估计是服务器又出问题了........不知道51CTO有没有备份我们的博克呀?

如何利用神经网络结合遗传算法进行非线性函数极值寻优(2)

如何利用神经网络结合遗传算法进行非线性函数极值寻优

阿里云发布第四代神龙架构云计算首次进入5微秒时延时代

10月20日,2021云栖大会上,阿里云宣布推出第四代神龙架构,这是飞天云操作系统新一代虚拟化技术,首次搭载全球唯一的大规模弹性RDMA加速网络,网络延迟整体降低80%以上。神龙4.0带来的计算架构革新,将云计算首…