为什么数据科学不值得?

news/2024/7/7 21:10:59

作者 | Dario Radečić

译者 | 陈思

本应是 21 世纪最热门的工作,实际上却可能没有那么火爆。数据科学已经陪伴我们一段时间了,它已经不再只是一个热门词汇。人们和公司都利用它创造了价值和金钱,但它真的是未来的职业吗?

作者注:这是一篇观点文章,所以可能有一定程度的偏见。在你的国家和你的技能水平不同的工作可能会有差异。我们看世界的眼光不一样。请在评论区留下你的想法和经验。

如果你从事的是软件相关的工作,那么你可能考虑过选择转入数据科学领域。为什么不可以呢,据说这些工作到处都是,薪水普遍比软件开发领域高,而且在你的职称里有 "科学家 "这个词会让你的母亲倍感骄傲。

好吧,你也许不是最后一个这么想的,不过是时候打破你的幻想了。

我在这个领域工作了一段时间了,探索了很多库和其他很酷的东西,写了大约 80 篇数据科学相关的文章,同时也在探索其他的选择(比如 web 和移动开发),我发现自己已经有资格去分解这个领域的好的和坏的东西。

今天的重点将主要放在坏事上,因为互联网上充斥着 "为什么你应该成为一名数据科学家 "和 "一个月内学会数据科学 "类型的文章。

话虽如此,但理想的读者应该是那些知道进入这个领域的好处,但也想知道可能的缺点是什么的人。另外,已经在这个领域工作了一段时间的人可能也会发现这些观点很有用。

好了,不多说了,我们先说第一点吧!

1. 数据科学是无聊的

是的,你没有看错。大部分的数据科学归结为从源表中提取数据,执行一些聚合和计算,然后将结果存储在适合分析的新表中。嗯,这完全描述了一个 ETL 过程,而不是数据科学。

进一步说,你会花一些时间清洗和准备数据,这又一次不是纯粹的数据科学相关。最后,我们还有涉及到预测性建模的部分——这个也不是什么新的东西,但在过去的几年里,它的受欢迎程度提高了很多。

这三个要素结合在一起,再加上得体的演讲和沟通技巧,让你成为一名普通的数据科学家。

但是,等等,数据科学不是会改变世界的吗?

是,也不是。有了数据科学的帮助,专业人士能够更好地完成他们的工作(就像医生),而你的 ETL 管道绝对没有人感兴趣,与你的 "数据科学家 "的工作头衔无关。

2. 数据科学正在变得自动化

或者说,至少它的有趣的部分正在变得自动化。你知道的,就是那些让你选择进入这个领域的热门词汇。像预测建模、机器学习等等。不要误会我的意思,大部分工作目前还不能实现自动化,但有相当一部分已经实现了。

这很可悲,因为当大众都在担心日常工作被自动化的时候,我们(这些从事数据科学的人)的工作却被自动化了。行吧。

你看过专业的云环境吗?如果没有,那也没关系,因为无论如何,看了的人都觉得很难过。基本而言,你能适合的算法数量是有限的,只要数据准备得当,谁都知道准确率比较高,就可以测试出所有的组合,得到一个相当不错的解决方案!这也是我们的工作。

我的意思是,它不会比一个有 10 年以上经验的资深数据科学家开发的方案好,但请问你自己——那 2% 的精度提升到底有多重要?

试着从员工和雇主的角度来思考这个问题:由数据科学家团队制作的模型稍微好一点的模型是否真的值得花费时间和金钱?对于某些公司来说,这是值得的,对于大多数“企业云环境”来说,它们将是完美的。

3. 职位需求没那么多

去你最喜欢的招聘网站上搜索数据科学工作。你期望像 SQL、Python、R、统计学这样的技能会被放在职业需求最上面——你的假设是完全正确的。问题是,这些只是数据科学职位 30% 的要求!

其他一些技能要求可能包括一般的编程、API、版本控制,甚至是一些前端技能。而这对你来说就很糟糕了。

即使你是软件开发者背景,并且拥有所有上述提到的技能,但数据科学领域的工作岗位仍然没有那么多。

让我们看一下 2020 年 5 月 16 日在 Indeed.com 上的职位需求列表,该列表仅限于美国:

数据科学——9,474 个职位

软件开发人员——66,647 个职位

如果这还不足以说明问题的话,让我们在软件开发中寻找一个更细分的领域——Java 开发人员。 让我们看看有多少职位提供:

Java 开发人员——29,324

但即使这些还不足以动摇你的信念,下面的这句话肯定会让你信服——大多数数据科学职位都是高级职位

这话说的没错。大多数中小型公司对数据科学家一职的要求并不像软件开发人员那样。也许他们正在寻找公司的第一个数据科学家,但是 你真的认为他们会雇佣一个实习生或者还没毕业的大学生来处理数据科学相关的工作吗? 请三思而后行。

总  结

也许我对数据科学的看法有点太过苛刻了,也许在你的国家情况不一样。但总的来说,在做出决定时,你应该清楚地知道利弊。

当今世界,机器学习已经逐步实现了一些工作的自动化,普通软件开发人员都有足够的信心去掌握它,如果让我在今天选择未来的职业,我会三思而后行。

但是不要误会我的意思,数据科学仍然很棒,但是只要准备花费大约 90–95%的时间在 ETL、数据处理和准备工作上,其余 5–10%的时间做您真正感兴趣的事情(比如预测模型)。

原文链接:

https://towardsdatascience.com/why-data-science-might-just-not-be-worth-it-c7f3daee7d8d


你也「在看」吗?????


http://lihuaxi.xjx100.cn/news/280420.html

相关文章

干货 | OpenCV中KLT光流跟踪原理详解与代码演示

点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达本文转自:opencv学堂稀疏光流跟踪(KLT)详解在视频移动对象跟踪中,稀疏光流跟踪是一种经典的对象跟踪算法,可以绘制运动对象的跟踪轨迹与…

时间序列的建模新思路:清华、李飞飞团队等提出强记忆力E3D-LSTM网络

作者 | Yunbo Wang,、Lu Jiang、 Ming-Hsuan Yang、Li-Jia Li、Mingsheng Long、Li Fei-Fei译者 | 凯隐编辑 | Jane出品 | AI科技大本营(ID:rgznai100)【导读】如何对时间序列进行时空建模及特征抽取,是RGB视频预测分类&#xff0…

Spring Cloud Consul 之Greenwich版本全攻略

点击上方“方志朋”,选择“置顶或者星标”你的关注意义重大!什么是ConsulConsul是HashiCorp公司推出的开源软件,使用GO语言编写,提供了分布式系统的服务注册和发现、配置等功能,这些功能中的每一个都可以根据需要单独使…

html5 原生 弹窗,一起来看 HTML 5.2 中新的原生元素 dialog

不到一个月前,HTML 5.2 正式成为 W3C 的推荐标准(REC),其中,推出了一个新的原生模态对话框元素 ,乍一看,可能感觉它就是一个新增的元素,然而,作者最近在玩的时候,发现它确实是一个值得期待和很有…

【原创】StreamInsight查询系列(六)——基本查询操作之分组聚合

上篇博文介绍了StreamInsight基础查询操作中的用户自定义聚合部分。这篇文章将主要介绍如何在StreamInsight查询中使用分组聚合。 测试数据准备 为了方便测试查询,我们首先准备一个静态的测试数据源:var weatherData new[] {new { Timestamp new DateT…

双目视觉摄像机的参数标定参考坐标系介绍

点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达本文转自 | 新机器视觉焊接机器人视觉的基本任务就是从双目摄像机获得的二维图像中恢复物体的三维空间信息,从而能够识别目标物体,进行生产作业。空…

雷军,扎克伯格,Linus 等巨佬的办公桌

点击上方“视学算法”,星标公众号重磅干货,第一时间送达大多数同为工程师的读者们,应该总是会对“工程师的办公桌到底有多乱”这类话题感兴趣,那些曾经的工程师、程序员巨佬的办公桌是否也杂乱无章呢?来看看。1、雷军2…

简单介绍VBS批量重命名文件并且操作前备份原有文件

这篇文章主要介绍了VBS批量重命名文件并且操作前备份原有文件,需要的朋友可以参考下 核心函数 VBScript Source File -- Created with SAPIEN Technologies PrimalScript 4.0NAME: AUTHOR: Microsoft , MicrosoftDATE : 2014/7/9COMMENT: 批量修改文件夹下对应的所有文件名选择…