编译 | 禾木木

出品 | AI科技大本营（ID:rgznai100）

大约一年前，总部位于纽约布鲁克林的自然语言处理初创公司 Hugging Face 推出了 BigScience。这是一个拥有 900 多名研究人员的国际项目，旨在更好地理解自然语言模型原理和提高大型语言模型的质量。大型语言模型（LLM）能够实现基于文本的数据集识别、预测和生成语言的算法，已经吸引了商业和技术爱好者的广泛关注。但是，它们背后没有像 OpenAI 和 DeepMind 这样的资源，开发 LLM 所需要的昂贵硬件成本仍然是研究人员的困难。

从欧洲核研究组织（CERN）及大型强子对接机等项目中收获得灵感，BigScience 的目标是创建 LLM 和大型文本数据集，并将这些数据集最终向更广泛的人工智能社区开放。这些模型将在法国巴黎附近的 Jean Zay 超级计算机上进行训练，这也是迄今为止全球最强大的机器设备之一。

对企业巨头们的影响可能还不清楚，但 BigScience 这样的努力实际是在降低 LLM 的接触门槛、提升模型开发透明度。除了由开放 AI 研究小组 EleutherAI 创建的几个模型之外，很少有经过培训的 LLM 可供研究或部署到生产中。OpenAI 拒绝将其最强大的 GPT-3 模型开源，反而是将源代码独家授权给了微软。与此同时，像英伟达等厂商虽然发布了性能不错的 LLM 代码，但是将这些 LLM 的训练留给了具有足够强大硬件的用户。

刚刚离开 Meta（前 Facebook）AI 研究部门、转投 Hugging Face 担任研究主管的 Douwe Kiela 表示：“很明显，直接跟业界巨头对抗并非明智之举。但作为弱势一方，我们可以找寻 Hugging Face 最与众不同的优势。初创企业更具活力，工作进程更快，而且对于开源的关注也让我们能够与来自学界乃至其他领域的研究人员们建立起强大的社区合作关系。这一切，都是在为 AI 技术的大众化与公平化进程而努力。”

LLM 大众化

LLM 与其他任何语言模型一样，也需要根据文本示例理解单词出现的几率。较为简单的模型会在特定语境下浏览，而大型模型则直接去理解句子甚至是段落。示例以训练数据集中的文本形式出现，包含从社交媒体、维基百科、书籍、GitHub 等软件托管平台以及公共网络上抓取到的 TB 级、甚至是 PB 级数据素材。

我们往往无法使用现成商用硬件训练最先进的 LLM 模型，部署最先进的 LLM 的障碍才是巨大的。像英伟达及微软的 Megatron 530B LLM 整个训练周期耗费可能高达数百万美元，这还不包含模型存储所带来的费用。接下来则是推理阶段，即通过运行训练后模型获得预测结果。根据估计，在单一 AWS 实例上运行 GPT-3 的成本至少为 87000 美元。

年初发布的 EleutherAi 模型与训练数据集倒是做出了一些更加可行的商业化。但此次 BigScience 的适用范围更广，不仅涵盖 LLM 的训练与发布，同时也解决了不少重大技术缺陷。

解决不平等问题

从计算的角度来看，LLM的好处并不是严格地分布不均的。英语法 LLM 的数量远远超过其他语言培训的 LLM，少数西欧语言（特别是德语，法语和西班牙语）占据了主导地位。正如哈佛大学、乔治梅森（George Mason）和卡耐基梅隆大学（Carnegie Mellon）近期共同发布了一项关于语言技术的研究，语言使用者的"经济实力"往往会推动模型的发展，而不是人口需求。

用英语以外的语言训练的大型多语言和单语模型虽然很少开源，但正变得比以前更常见，部分归功于企业利益。但是，由于公共数据源中的系统性偏差，非英语模型的表现并不总是与英语模型一样好。例如，基于维基百科的数据集内不同语种的素材规模差异巨大，而且在待完善内容方面的立项百分比、编辑次数和用户浏览量上也截然不同。相当一部分使用特定语种的群体根本无法访问维基百科。此外，阿拉伯语和乌尔都语版本的电子书大多为图像扫描件、而非纯文本，在使用光学字符识别工具转录过程中其精度可能低至 70%。

作为其工作的一部分，BigScience表示，它已经制作了分布在世界各地的近200种语言资源的目录。该项目的贡献者还创建了最大的阿拉伯语公共自然语言目录之一，称为Masader，拥有200多个数据集。

结语

在商业应用中，BIgScience 的工作很有可能会激发出原有 LLM 无法利用的全新 AI 驱动产品。语言模型已成为医疗保健、金融服务等行业的关键工具，可用于处理专利、从科学论文中获得见解，推荐新闻文章等。但是，规模较小的组织也越来越多地被排除在 AI 的前沿进步之外。

在 John Snow Labs 与 Gradient Flow 在 2021 年的一项调查中，受访企业普遍将准确性列为语言模型评估中的重要要素，其次是生产就绪性和可扩展性。最大的挑战体现为成本、维护与数据共享。

尽管 LLM 有潜在的危害，仍然在基础知识层面也仍然没有找到可行的出路，经常会自主打破语义规则并无休止地原地转圈。例如，模型经常会在没有转义的情况下改变对话主题，或者说出自相矛盾的言论。LLM 在道德、历史和法律问题上的了解也堪称浅薄，甚至会在无意间暴露出公共训练数据集中的个人信息。

Kiela 表示“在 Hugging Face 各研究团队的共同努力下，我们希望在 Meta 式的自下而上探索，与 DeepMind/OpenAI 式的自上而下研究之间找到完美的平衡点。在自下而上时，我们往往会遇到不必要的摩擦、竞争与资源争用问题。至于自上而下，研究人员的自由意志与创造力则会受到打压。我们的员工来自谷歌、Meta 以及整个学术界，所以当下正是最好的探索时机。我们希望创造出一种新的开创性研究环境，给传统实验思维带来一点有益的启发和补充。”

原文链接：

https://venturebeat.com/2022/01/10/inside-bigscience-the-quest-to-build-a-powerful-open-language-model/