Nature:16年前的论文生成软件SCIgen至今仍有人用,骗过同行评审,论文被接收...

news/2024/7/8 2:47:32

视学算法报道

转载自:机器之心

编辑:杜伟

计算机程序自动生成的逻辑不通的论文也能被接收,你敢信?然而,在计算机科学领域,这种事情的的确确在发生着。近日,Nature 的一篇文章揭露了由计算机程序 SCIgen 自动生成的论文,数据显示「一百万篇文章中,有 75 篇论文是由该程序生成」。虽然占比不高,但也表明了计算机科学领域中某些学者的浑水摸鱼取得了成功,这是对同行评审制度和学术研究诚实性的巨大侮辱。

文章地址:https://www.nature.com/articles/d41586-021-01436-7

进入正文前,先来了解一下计算机程序 SCIgen 到底是什么?

2005 年,纯粹出于娱乐目的,就读于 MIT 的三位计算机博士生 Jeremy Stribling、Daniel Aguayo 和 Maxwell Krohn 创建了一个能够生成无意义英文计算机科学研究论文的计算机程序 SCIgen,它使用用户定制的上下文无关语言生成论文的各类组成元素,包括图片、表格、流程图和文献等。

正是这三位老哥创建了 SCIgen 软件,自左向右依次是 Dan Aguayo、Max Krohn 和 Jeremy Stribling。摄自:Frank Dabek

他们使用 SCIgen 生成了论文《 Rooter: A Methodology for the Typical Unification of Access Points and Redundancy 》,投在了当年的 WMSCI(World Multiconference on Systemics, Cybernetics and Informatics)会议上。没想到该会议不仅接收了这篇论文,还邀请三位作者出席会议做报告。

论文地址:https://pdos.csail.mit.edu/archive/scigen/rooter.pdf

不过,三位作者将 SCIgen 自动生成的论文被 WMSCI 会议接收的消息捅了出去,立即引起了科研圈的广泛关注。WMSCI 会议颜面扫地,撤回了对他们的报告邀请。这堪称当年学术圈的「一出闹剧」。这个计算机程序免费下载,任何人都可以使用。之后数年,SCIgen 自动生成的其他论文也多次被一些期刊和会议录用。

可没想到,这么多年过去了,计算机科学领域依然有学者使用这个计算机程序来生成论文,并且有的依然被接收了,真是不可思议!

学者「浑水摸鱼」,使用 SCIgen 生成论文

2012 年,法国计算机科学家 Cyril Labbé 在 IEEE 举办的会议上发现了 85 篇 SCIgen 生成的论文,接着又在 IEEE 和 Springer 发表的论文中发现了 120 多篇 SCIgen 生成的论文。不清楚是谁生成了这些论文,有的论文后来被撤回或删除。

2013 年,Labbé 创建了一个检测 SCIgen 生成论文的网站,任何人都可以上传论文原稿,确认论文是否由 SCIgen 生成。

网站地址:http://scigendetection.imag.fr/main.php

2015 年,Labbé 又与 Springer 联合资助了一个博士项目,帮助检测 SCIgen 生成的论文,并创建了免费的软件 SciDetect。

网站地址:https://www.springer.com/gp/about-springer/media/press-releases/corporate/scidetect/54166

最初,Labbé 通过搜索 SCIgen 词汇表中的典型词汇来判断论文是否出自 SCIgen。但之后,他改变了检索方式。他与另一位来自法国图卢兹大学的计算机科学家 Guillaume Cabanac 想到了一个新方法:搜索 SCIgen 输出中的典型短语。自 2020 年 5 月,他们在 Dimensions 数据库中的数百万篇论文中搜索了此类短语。在定位到此类短语之后,他们又进行了手动检查,结果发现了 243 篇完全或部分由 SCIgen 生成的无意义论文,并于近日在 ASIS&T 上公布了相关结果。

243 篇由 SCIgen 生成的论文。

数据显示,243 篇论文大部分属于计算机科学领域,自 2008 至 2020 年在不同的期刊、学术会议和预印本网站上发表。有的论文开放阅读,有的需要权限。其中,有 46 篇已被首次发表它们的网站撤回或删除。

从下图可以看到,IEEE、ACM、IAES 等期刊和会议都曾发表过这些论文。

此外,据 Nature 报道,Labbé 和 Cabanac 还发现了 20 篇由 MATHgen(生成数学论文的软件)和 SBIR 提案生成器(创建无意义研究提案的软件)生成的论文。

他们已经公布了详细的调查结果,详见 https://dbrech.irit.fr/pls/apex/f?p=9999:1

同行评审没有发现 SCIgen 生成的这些论文

在最近一批使用 SCIgen 自动生成论文调查中,中国作者占 64%,印度则为 22%。但 Labbé 指出,在提交论文中,作者署名可能不使用真实的名字,但难以查究。

但是有论文作者告诉 Labbé 和 Cabanac,他之所以会提交 SCIgen 生成的论文,纯粹是「恶作剧」。但是,除了「恶作剧」的之外,有些论文作者似乎在参考文献上进行了认真的编辑。可以推测,这种做法很有可能是为了增加论文引用量,从而提高简历含金量。

他们发现,目前只有两篇被曝光的 SCIgen 论文没有被 IEEE 撤稿(正在评估阶段),以及一篇包含 MATHgen 生成内容的论文没有被 Springer 论文撤回。

但是,一些出版商面临很糟糕的情况,英国物理学会电子期刊数据库旗下的子公司 IOP Publishing 谈到,有明确证据证明论文是由计算机生成的,他们撤回了 10 篇论文,但同时也在调查为什么在同行评审阶段没有发现这些计算机生成的论文。

IOP 的经理 Kim Eggleton 表示:「我们有合理的证据表明,这些论文的同行评审在审核论文方面还不合格。」

出版 SCIgen 论文最多的出版商是一家瑞士出版商 Trans Tech Publications,他们出版了 57 篇 SCIgen 论文;其次是印度的 Blue Eyes Intelligence Engineering and Sciences(BEIESP) 出版商,出版了 54 篇 SCIgen 论文;此外,还有来自法国的出版商 Atlantis Press(今年 3 月被 Springer Nature 收购),出版了 39 篇 SCIgen 论文。Trans Tech Publications 和 Atlantis 告诉《Nature 》,他们正在调查,并会撤回相关论文。而 BEIESP 的发言人表示,他们只出版经过双盲同行评审与剽窃检查的原创内容。

研究还发现,SSRN 已经发表了 16 篇 SCIgen 文章。该平台是一款预印服务器,文章在分享之前没有经过同行评审。SSRN 的一位发言人说,该公司正在调查 SCIgen 文章问题,并指出该公司为其预印本提供了「有限的筛选」(对医疗 - 健康论文进行了「高级筛选」。)

Cabanac 对一些出版商处理这类论文的不透明方式感到担忧。例如,IEEE 撤回了 SCIgen 论文,但没有正式的撤回通知。此外,Cabanac 还指出,一些研究论文或者早期的论文版本会从预印服务器 SSRN 消失,但论文的变动却没有记录。

IEEE 发言人表示,其删除论文或撤稿通知取决于评估结果;而 SSRN 没有回应有关其撤稿或删除论文政策的问题。

SCIgen 论文相对较少, Labbé 和 Cabanac 估计,数据表明,在计算机科学文献中,每 100 万篇论文中只有 75 篇是 SCIgen 生成的。与「论文制造工厂」相比,它们为学者们撰写了看似真实的研究论文,SCIgen 论文问题还不算严重。

参考链接:

https://zh.wikipedia.org/wiki/SCIgen

https://www.shobserver.com/toutiao/html/147296.html

https://asistdl.onlinelibrary.wiley.com/doi/10.1002/asi.24495

© THE END 

转载请联系机器之心公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

点个在看 paper不断!


http://lihuaxi.xjx100.cn/news/268971.html

相关文章

最差的算法工程师能差到什么程度?

点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达编辑:Amusi(CVer) | 来源:知乎https://www.zhihu.com/question/347545092本文仅作为学术分享,如果侵权&#x…

配置导出MOSS2010列表数据到Excel并根据列表记录自动刷新数据

第一章 简介 场景描述 根据最近客户的需求,他们需要自动维护MOSS2010列表数据导出到Excel的数据实时同步,就是列表添加记录后,导出的Excel列表自动同步数据过来。 第二章 配置方法 1. 打开MOSS2010站点http://moss:8001的要导出的列表 2. 点【…

java最长类名_在java规范中类命名的字符长度是多少?

展开全部在java规范中没2113有限制类名的长度,但5261是系统4102本身会限制。下面是1653详细说明:java这个回语言本身答:没有限制。java虚拟机本身的规范:The length of field and method names, field and method descriptors,and…

MongoDB中mapReduce的使用

MongoDB中mapReduce的使用 制作人:全心全意 mapReduce的功能和group by的功能类似,但比group by处理的数据量更大 使用示例: var map function(){emit(this.cat_id,this.price);#根据cat_id进行分组,对price字段进行操作 } var r…

STM32F103 与 STM32F407引脚兼容问题

突袭网收集的解决方案如下 解决方案1: STM32F103有的功能407都有,并且这些功能的引脚完全兼容,只是程序不同而已。。。而STM32F407有的功能103不一定有,因为407强大些。。。。。。希望对你有用 解决方案2: 不能。407支…

python字典用法(创建、添加、删除(del()、clear()、pop()、popitem())、修改、查找(get()、keys()、values()、items())、更新update、遍历)

字典⾥⾯的数据是以键值对形式出现,字典数据和数据顺序没有关系,即字典不⽀持下标,后期⽆论数据如何变化,只需要按照对应的键的名字查找数据即可。 1. 创建字典的语法 字典特点: 符号为⼤括号 数据为键值对形式出现 各…

清华唐杰团队造了个“中文AI设计师”,效果比Dall·E好,可在线试玩

点击上方“视学算法”,选择加"星标"或“置顶”重磅干货,第一时间送达晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI要说2021年OpenAI最热最有创意的产品,那么非DallE莫属了,这是一个可以从“AI设计师”,只要…

log4j.logger java_log4j的多logger记录日志的简明使用

日志,应该是一个应用软件的基础功能之一。使用java语言,必然会使用一个日志库,我使用的是log4j的日志库。网上不少文章都有介绍,但是结合logger的不同功能介绍以及示例介绍的清楚的不多,至少我也是翻了不少网页&#x…