GPT-3 不够 Open,BigScience 构建开放语言模型,规模小 16 倍

news/2024/7/5 3:16:39

编译 | 禾木木

出品 | AI科技大本营(ID:rgznai100)

大约一年前,总部位于纽约布鲁克林的自然语言处理初创公司 Hugging Face 推出了 BigScience。这是一个拥有 900 多名研究人员的国际项目,旨在更好地理解自然语言模型原理和提高大型语言模型的质量。大型语言模型(LLM)能够实现基于文本的数据集识别、预测和生成语言的算法,已经吸引了商业和技术爱好者的广泛关注。但是,它们背后没有像 OpenAI 和 DeepMind 这样的资源,开发 LLM 所需要的昂贵硬件成本仍然是研究人员的困难。

从欧洲核研究组织(CERN)及大型强子对接机等项目中收获得灵感,BigScience 的目标是创建 LLM 和大型文本数据集,并将这些数据集最终向更广泛的人工智能社区开放。这些模型将在法国巴黎附近的 Jean Zay 超级计算机上进行训练,这也是迄今为止全球最强大的机器设备之一。

对企业巨头们的影响可能还不清楚,但 BigScience 这样的努力实际是在降低 LLM 的接触门槛、提升模型开发透明度。除了由开放 AI 研究小组 EleutherAI 创建的几个模型之外,很少有经过培训的 LLM 可供研究或部署到生产中。OpenAI 拒绝将其最强大的 GPT-3 模型开源,反而是将源代码独家授权给了微软。与此同时,像英伟达等厂商虽然发布了性能不错的 LLM 代码,但是将这些 LLM 的训练留给了具有足够强大硬件的用户。

刚刚离开 Meta(前 Facebook)AI 研究部门、转投 Hugging Face 担任研究主管的 Douwe Kiela 表示:“很明显,直接跟业界巨头对抗并非明智之举。但作为弱势一方,我们可以找寻 Hugging Face 最与众不同的优势。初创企业更具活力,工作进程更快,而且对于开源的关注也让我们能够与来自学界乃至其他领域的研究人员们建立起强大的社区合作关系。这一切,都是在为 AI 技术的大众化与公平化进程而努力。”

LLM 大众化

LLM 与其他任何语言模型一样,也需要根据文本示例理解单词出现的几率。较为简单的模型会在特定语境下浏览,而大型模型则直接去理解句子甚至是段落。示例以训练数据集中的文本形式出现,包含从社交媒体、维基百科、书籍、GitHub 等软件托管平台以及公共网络上抓取到的 TB 级、甚至是 PB 级数据素材。

我们往往无法使用现成商用硬件训练最先进的 LLM 模型,部署最先进的 LLM 的障碍才是巨大的。像英伟达及微软的 Megatron 530B LLM 整个训练周期耗费可能高达数百万美元,这还不包含模型存储所带来的费用。接下来则是推理阶段,即通过运行训练后模型获得预测结果。根据估计,在单一 AWS 实例上运行 GPT-3 的成本至少为 87000 美元。

年初发布的 EleutherAi 模型与训练数据集倒是做出了一些更加可行的商业化。但此次 BigScience 的适用范围更广,不仅涵盖 LLM 的训练与发布,同时也解决了不少重大技术缺陷。

解决不平等问题

从计算的角度来看,LLM的好处并不是严格地分布不均的。英语法 LLM 的数量远远超过其他语言培训的 LLM,少数西欧语言(特别是德语,法语和西班牙语)占据了主导地位。正如哈佛大学、乔治梅森(George Mason)和卡耐基梅隆大学(Carnegie Mellon)近期共同发布了一项关于语言技术的研究,语言使用者的"经济实力"往往会推动模型的发展,而不是人口需求。

用英语以外的语言训练的大型多语言和单语模型虽然很少开源,但正变得比以前更常见,部分归功于企业利益。但是,由于公共数据源中的系统性偏差,非英语模型的表现并不总是与英语模型一样好。例如,基于维基百科的数据集内不同语种的素材规模差异巨大,而且在待完善内容方面的立项百分比、编辑次数和用户浏览量上也截然不同。相当一部分使用特定语种的群体根本无法访问维基百科。此外,阿拉伯语和乌尔都语版本的电子书大多为图像扫描件、而非纯文本,在使用光学字符识别工具转录过程中其精度可能低至 70%。

作为其工作的一部分,BigScience表示,它已经制作了分布在世界各地的近200种语言资源的目录。该项目的贡献者还创建了最大的阿拉伯语公共自然语言目录之一,称为Masader,拥有200多个数据集。

结语

在商业应用中,BIgScience 的工作很有可能会激发出原有 LLM 无法利用的全新 AI 驱动产品。语言模型已成为医疗保健、金融服务等行业的关键工具,可用于处理专利、从科学论文中获得见解,推荐新闻文章等。但是,规模较小的组织也越来越多地被排除在 AI 的前沿进步之外。

在 John Snow Labs 与 Gradient Flow 在 2021 年的一项调查中,受访企业普遍将准确性列为语言模型评估中的重要要素,其次是生产就绪性和可扩展性。最大的挑战体现为成本、维护与数据共享。

尽管 LLM 有潜在的危害,仍然在基础知识层面也仍然没有找到可行的出路,经常会自主打破语义规则并无休止地原地转圈。例如,模型经常会在没有转义的情况下改变对话主题,或者说出自相矛盾的言论。LLM 在道德、历史和法律问题上的了解也堪称浅薄,甚至会在无意间暴露出公共训练数据集中的个人信息。

Kiela 表示“在 Hugging Face 各研究团队的共同努力下,我们希望在 Meta 式的自下而上探索,与 DeepMind/OpenAI 式的自上而下研究之间找到完美的平衡点。在自下而上时,我们往往会遇到不必要的摩擦、竞争与资源争用问题。至于自上而下,研究人员的自由意志与创造力则会受到打压。我们的员工来自谷歌、Meta 以及整个学术界,所以当下正是最好的探索时机。我们希望创造出一种新的开创性研究环境,给传统实验思维带来一点有益的启发和补充。”

原文链接:

https://venturebeat.com/2022/01/10/inside-bigscience-the-quest-to-build-a-powerful-open-language-model/


http://lihuaxi.xjx100.cn/news/256342.html

相关文章

ReactiveCocoa代码实践之-更多思考

三.ReactiveCocoa代码实践之-更多思考 1. RACObserve()宏形参写法的区别 之前写代码考虑过 RACObserve(self.timeLabel , text) 和 RACObserve(self , timeLabel.text) 的区别。 因为这两种方法都是观察self.timeLabel.text的属性,并且都能实现功能。估计是作者原本…

SQL Server 2000 从哪里看是哪个版本

有两种方法: 第一步:使用SQL语句查询 select version 查询结果如下: Microsoft SQL Server 2000 - 8.00.2039 (Intel X86) May 3 2005 23:18:38 Copyright (c) 1988-2003 Microsoft Corporation Personal Edition on Windows NT 5.1 (Build 2…

今年最后一场组队学习!

Datawhale学习 开源贡献:Datawhale团队本月组队学习,包含了人工智能(含机器学习、深度学习)、数据科学、编程实践、计算机科学4个模块,共11个学习内容。文末有学习地址关于开源Datawhale作为开源组织,更多是…

开源社区的危机:拒绝被“白嫖”?2大著名项目遭作者破坏

作者 | 林檎来源 | 数据实战派近日,一位开源开发者的故意破坏,再次引发了机构依赖开源库的争议。这一类开源库往往由维护者义务工作而支撑。被破坏的开源库是 Marak Squires 开发的 color.js 库和 faker.js 库。这两个库被广泛使用,其中不乏企…

互联网协议详解

本文转载自:https://www.cnblogs.com/111testing/p/6942585.html 目录:::::: 一、网络协议 二、TCP(Transmission Control Protocol,传输控制协议) TCP头格式…

采样提速256倍,蒸馏扩散模型生成图像质量媲美教师模型,只需4步

点击上方“视学算法”,选择加"星标"或“置顶”重磅干货,第一时间送达作者丨杜伟、陈萍来源丨机器之心编辑丨极市平台导读 斯坦福大学联合谷歌大脑使用「两步蒸馏方法」提升无分类器指导的采样效率,在生成样本质量和采样速度上都有非…

什么才是真正的架构设计

欢迎关注方志朋的博客,回复”666“获面试宝典什么是架构和架构本质在软件行业,对于什么是架构,都有很多的争论,每个人都有自己的理解。此君说的架构和彼君理解的架构未必是一回事。因此我们在讨论架构之前,我们先讨论架…

CCF推荐系统项目代码解读!

Datawhale干货 作者:阿水,北京航空航天大学,Datawhale成员本文以CCF大数据与计算智能大赛(CCF BDCI)图书推荐系统竞赛为实践背景,使用Paddle构建用户与图书的打分模型,借助Embedding层来完成具体…