为了不让GPU等CPU,谷歌提出“数据回波”榨干GPU空闲时间,训练速度提升3倍多...

news/2024/7/5 6:45:54
晓查 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

因为通用计算芯片不能满足神经网络运算需求,越来越多的人转而使用GPU和TPU这类专用硬件加速器,加快神经网络训练的速度。

但是,用了更快的GPU和TPU就一定能加速训练吗?

训练流水线的所有操作并不都是在加速器上运行。上游数据处理(如磁盘I/O和数据预处理)就不能在加速器上运行。

随着GPU等加速器越来越快,超过了CPU、磁盘处理数据的速度,上游就逐渐成了训练瓶颈。

在某些情况下,GPU上游的代码花费的时间甚至是GPU本身运行时间的几倍。上游没做完,下游只能空等,浪费了大量时间。

为此,Google AI团队,提出一种简单的数据回波(Data Echoing)方法,可以解决这个问题。该方法最多能将训练速度加速3倍以上,且对模型的精度没有明显影响。

Jeff Dean也在Twitter上转发点赞。

重复数据让GPU不空等

很多情况下,上游花费的时间比加速器更长,使用更快的GPU或TPU根本不会提高训练速度。如果投入大量的工程工作以及额外的计算资源,确实可以加快流水线的速度。

对于非常小的数据集,可以离线预先计算扩增的数据集,并将整个预处理的数据集加载到内存中。

但这种方法不适用于大多数机器学习训练场景,既耗时又分散了改善推理性能的主要目标。

与其等待更多的数据,不如利用已有的数据来使加速器保持忙碌状态。

在加速器空置50%情况下,预处理batch的第一个优化步骤之后,我们可以重复利用该batch再进行一次训练。

如果重复数据与新数据一样有用,训练效率会提高一倍。

实际上,由于重复数据不如新数据有用,因此数据回波提供的加速要小一些,但和加速器处于空闲状态相比,仍然可以提供明显的加速。

通常有几种方法可以在给定的神经网络训练管道中实现数据回波。

Google提出的技术,是将数据复制到训练管道中某个位置的随机缓冲区中,无论在哪个阶段产生瓶颈之后,都可以将缓存数据插入任意位置。

数据回波在样本级别对数据进行混洗,而batch回波则对重复批次的序列进行混洗。另外还可以在数据扩充之前插入缓冲区,以使重复数据的每个副本略有不同,因此不是简单机械重复,而是更接近一个新样本。

加速3倍多,精度无损失

那么数据回波到底多有用呢?

Google在五个神经网络训练管道上尝试了数据回波,涵盖了图像分类、语言建模和目标检测3个不同的任务,并测量了达到特定性能目标所需的新样本数量。

Google发现,数据回波可以用更少的新样本来达到目标性能,这表明重复使用数据对于降低磁盘I/O很有用。在某些情况下,重复数据几乎与新数据一样有用。

在ImageNet的ResNet-50训练任务中,数据回波可以显著提高训练速度,加速了3倍以上。

从云存储中读取一批训练数据所花的时间是使用每一批数据执行训练步骤的6倍。因此数据最多可以重复5次。

我们将回波因子定义为重复每个数据项的次数,对于以上任务,回波因子最大是5。如果重复样本与新样本一样有用,则应该带来6倍加速,而实际上只加速了3.25倍,但也相当可观。

可能有人会担心重复使用数据会损害模型的最终性能,但实验发现,测试的任何工作负载,数据回波都不会降低最终模型的质量。

随着GPU和TPU性能的继续提升,和通用处理器的差距会越来越大,Google期望数据回波和类似策略将成为神经网络培训工具包中越来越重要的一部分。

怎么样,谷歌AI的这项最新研究,是不是也给你训练神经网络带来一些新启发?

论文地址:
https://arxiv.org/abs/1907.05550

博客地址:
https://ai.googleblog.com/2020/05/speeding-up-neural-network-training.html

作者系网易新闻·网易号“各有态度”签约作者

喜欢就点「在看」吧 ! 


http://lihuaxi.xjx100.cn/news/281398.html

相关文章

Linux 中监控 MySQL性能的调优工具

MySQL是最常见的一种轻量型数据库,也是目前在市面上应用最广泛的一种数据库,所以懂得几个MySQL的调优工具非常必要,我个人比较推荐mytop和innotop 监控mysql性能的工具有很多,好的工具是诊断myql性能瓶颈和排除服务器的利器。日常…

【转】Flex4:利用HttpService与ASP.NET传输JSON数据(登录为例)

开发环境:Flash Builder4,Vs2005 1、首先打开FlashBuilde4,创建一个名为HttpService_Net_Json的flex项目 (图1) 然后下一步,应用程序类型选择web,应用程序服务器类型选择ASP.NET(如图2) (图2) 下一步,出现配…

zoom:1是什么意思

当一个容器内元素都浮动后,它将高度将不会随着内部元素高度的增加而增加,所以造成内容元素的显示超出了容器。 overflow:auto;是让高度自适应, zoom:1;是为了兼容IE6,也可以用height:1%;的方式来解决1、浮动 浮动是CSS中用到的最多…

JavaScript初学者编程题(13)

JavaScript初学者编程题(13) 题目&#xff1a;输入一行字符&#xff0c;分别统计出其中英文字母、空格、数字和其它字符的个数。 HTMl部分 <input type"text" id"str"><button onclick"getTheNum()">get</button>JavaScript…

SpringBoot第九篇: springboot整合Redis

这篇文章主要介绍springboot整合redis&#xff0c;至于没有接触过redis的同学可以看下这篇文章&#xff1a;5分钟带你入门Redis。引入依赖&#xff1a;在pom文件中添加redis依赖&#xff1a;<dependency><groupId>org.springframework.boot</groupId><art…

Google 确认 Chrome 存在严重漏洞,向 20 亿用户发出警告:你们需立即更新浏览器...

作者&#xff1a;okay来源&#xff1a;扩展迷EXTFANS近日&#xff0c;Google面向二十亿Chrome浏览器用户推出至关重要的补丁程序&#xff0c;并再次强调大家需要立即更新其浏览器。如果你在Mac&#xff0c;Windows 10或Linux计算机上使用的是Google Chrome浏览器&#xff0c;则…

一文让你明白 Git 分支是如何工作的

分支是 Git 版本跟踪的核心功能&#xff0c;并且经常被使用相同软件代码库的团队使用。我们将深入研究它们如何在幕后工作&#xff0c;以及如何使用它们来改进 Git 工作流程。什么是分支&#xff1f; 分支用于拆分 Git 历史记录。您可以将 Git 提交想象成一系列可以追溯到过去…

CRF学习笔记

HMM&#xff0c;CRF等真的是很难很难啊 本科看不懂 研究生还是看不懂 然而为了找工作&#xff0c;拼了↖(^ω^)↗ https://www.zhihu.com/question/35866596 知乎上简单易懂的(&#xff89;*&#xff65;ω&#xff65;)&#xff89;推导&#xff0c;但是还是没有看懂 &#…