GPT-2仅是“反刍”知识，真正理解语言还要改弦更张

作者 | Gary Marcus

译者 | 泓技

编辑 | 夕颜

出品 | AI科技大本营（ID：rgznai100）

【导读】OpenAI的GPT-2正被广泛地讨论，无论是《纽约客》还是《经济学人》，我们都能看到有关它的话题。关于自然和人工智能，它想真正告诉我们的是什么？

给它（GPT-2）提供计算能力，给它数据，它将做出令人惊奇的事情

--OpenAI联合创始人兼首席科学家Ilya Sutskever，《纽约客》采访，2019年10月

《经济学人》：2020年哪些技术值得关注？

GPT-2：我想说很难缩小范围。世界上充满了具有破坏性的技术，这些技术将对全球产生实际甚至潜在的巨大影响。最重要的是人工智能，它正变得越来越强大。

--人工智能系统GPT-2，《经济学人》“人工智能预测未来”专题采访，2019年12月

先天主义，经验主义和深度学习的最新发展

我们首先来考虑下关于语言和认知发展的两个经典假设。

西方知识分子的主要思想路线，通常称为先天主义，可以追溯到柏拉图和康德。它最近的发展主要是由Noam Chomsky，Steven Pinker，Elizabeth Spelke和其他人（包括我自己）推动的。

从先天主义者的角度来看，人和动物的智力源自诸如通用语法之类的牢固起点和能表示诸如物理物体等各领域的核心认知机制。

与之相对的经验主义（常常与17世纪英国哲学家约翰·洛克（John Locke）有关）观点认为，几乎不需要任何天赋即可掌握智力，学习和经验本质上是发展智力所需要的。在这种“空白状态”的观点上，所有智力都来自感官体验和与世界互动的模式。

在约翰·洛克（John Locke）和伊曼纽尔·康德（Immanuel Kant）时代，所有这些都是猜测。

如今，只要有足够的金钱和计算机时间，我们就可以通过构建大量的神经网络并查看他们学到的东西来测试这种理论。

AI系统GPT-2，最近是《纽约客》的一大亮点，并被《经济学人》作为采访对象。基于最近开发的称为Transformer的神经网络架构，GPT-2（Generative Pre-Training的缩写）可以用作对洛克假设进行特别有效的检验。它是在庞大的40 GB数据集上进行训练的，具有15亿个参数，这些参数是根据训练数据进行调整的，除训练集所表示的内容外，对语言或世界的本质没有任何先验知识。

这几乎是Noam Chomsky关于语言的所有论点的对立面。它没有内置的通用语法。它不知道什么是名词或动词。Chomsky语言学最基础的主张之一是句子以树结构表示，并且孩子出生时就知道（不自觉地）句子应该用这种树表示。在1980年代和1990年代的每门语言课中，都充满了句法树结构的分析。但GPT-2没有。

类似地，人们可能会想到某些类别的词（“词性”），例如先天的名词和动词；Transformer网络（至少目前使用它们的方式）没有做出这样的承诺。名词和动词仅被近似地表示在乔姆斯基理论的许多表述中，先天性原则支配着句子的可能转换，这允许元素在句子的形成过程中从一个位置“移动”到另一个位置；乔姆斯基认为，这也是与生俱来的。Transformer网络（至少是目前最常用的Transformer网络）完全不需要这种东西。

同样，像哲学家伊曼纽尔·康德（Immanuel Kant）和发展心理学家伊丽莎白·斯佩尔克（Elizabeth Spelke）这样的先天主义者也认为，先天性框架对于代表诸如空间，时间和因果关系（Kant）以及物体及其属性（例如时空连续性）等概念的价值。同样，为了保持洛克提出的精神，GPT-2除了训练语料库所代表的内容之外，没有关于空间，时间或物体的先验知识。

当然，从字面上看，没有什么可以是一块白板。真正的经验主义是一个稻草人。但不幸的是GPT-2几乎就是白板一张。除了神经网络的基本体系结构（通过一组简化的人工神经元及其之间的连接来指定）和其学习设备的参数外，剩下的只有大量数据，其中包括：来自 Internet上的800万个网站的共计40 GB的文本。

与过去相比，仅这个数字就令人震惊。早在1996年，神经网络先驱杰弗里·埃尔曼（Jeffrey Elman）与一群发展心理学家合写了一部名为《重新思考先天性》（Rethinking Innateness）的书，该书预言了当前的大部分工作，它使用了较早的神经网络来获取语言，但是输入数据库的字面大小仅为为现在的8百万分之一。仅仅构建一个能够消化互联网规模数据的系统本身就是一项壮举，而其开发人员OpenAI擅长的就是这一壮举。

小结

在许多方面，GPT-2都表现出色。当它首次发布时，OpenAI公开表示它是否太过优秀以至于发布它可能带来危险。它生成的句子流畅度惊人，几乎可以假乱真。

《纽约客》为它写了一篇特写，它成为《经济学人》第一个被采访的人工智能系统，这绝非偶然。颇受欢迎的博客StatStarCodex在名为“GPT-2，迈向通用智能的一步”的播客中也对此进行了介绍。

从根本上讲，GPT-2的工作原理是接受一组单词作为输入（很像1990年Elman介绍的Simple Recurrent Network），并产生一组单词作为输出。

以下是一个典型示例，其中输入以粗体表示，输出由粗体后的部分组成。

我在雅典长大。我说一口流利的希腊语。自小学以来，我一直在写希腊文。

它的输出流利，语法正确且明智。在雅典语一词的上下文中，相对于句子的其余部分，最流畅的词后接下来应该是希腊语，系统正确地预测了这一点。鉴于没有国家或语言的明确表示，也没有连接两者的明确数据库，GPT-2做到的从位置到语言的常识性飞跃似乎很是惊人。

其他例子让人们对这个印象更加深刻：

我在罗马长大，我会说流利的意大利语，并且能在所有笔记中使用意大利语。

我在里约热内卢长大。我会说流利的葡萄牙语，西班牙语和许多当地语言。

我在上海长大。我说一口流利的普通话，而且我学了很多中文，所以学习中文真的没有任何问题。

难怪GPT-2在深度学习中声名鹊起。有些人用它来写书和诗歌，另一些人用它来为视频游戏提供支持，例如AI Dungeon 2，这是一款功能几乎能生成无限文字的游戏，每月在Patreon上的收入可达16,000美元。它甚至被用于国际象棋，且无疑还将被用于很多其他地方。这不仅是对经验主义的考验；这也是一种文化现象。

GPT-2作为一种思维向量假设检验

碰巧的是，Transformers也可以看作是第二种假设的理想试验场，即思维和句子可以表示为向量，而不是诸如Noam Chomsky所喜欢的句法树之类的复杂结构。

Hinton在2015年对《卫报》的采访中特别直接提出了这一论点，告诉《卫报》

Google正在研究一种新型算法，该算法旨在将思想编码为数字序列，他称之为“思维向量”。尽管这项工作尚处于初期阶段，但他说，从当前软件到更复杂的版本还有一条合理的道路，该版本将具有接近于人类的推理和逻辑能力。“基本上，它们将具有常识。” ....“思维向量”方法将帮助克服人工智能中的两个主要挑战：掌握自然的、对话性的语言以及实现逻辑飞跃的能力。

Hinton补充道：

几乎以数学精度解构语言的想法令人惊讶，但这可以做到。他说：“如果将巴黎的向量减去法国的向量，再加上意大利，那么你将得到罗马。” “这非常了不起。”

这不禁让我想起弗雷德·耶利内克说过的名言，“每次我解雇了一个语言学家，语音识别器的性能就会提升。”

在某种程度上，像GPT-2这样的无树系统确实可以进行对话和推理，这将是对语言学的有力挑战，并坚定Hinton的立场。

但是，如果我们从60年的AI中学到了一件事，那就是事情往往不如最初预想得那样顺利。我们应该如何认真对待它呢？

评估GPT-2

让我们从好消息开始。与以前的所有自然语言生成系统相比，GPT-2具有许多非凡的优势。这里总结出五个：

优势1：系统的输出非常流畅；在句子级别，有时甚至在段落级别，输出几乎总是符合语法的，并且通常是符合语言习惯的。小批量时，它通常与母语使用者是无法区分的。在流利度上，这是一个重大进步。
优势2：系统通常非常擅长关联主题。经过一段漫长的时间，它开始徘徊，但是如果提供有关动物的段落，系统将会生成动物相关的后文；如果输入船只相关段落，你将得到有关船只的段落。
优势3：该系统非常擅长与段落中的角色和实体相关联；输入有关Chris和Terry的段落，你可能对得到Chris和Terry相关的结果。
优势4：系统有时可以正确回答常见的事实性问题，例如，在我的实验中，系统经常（尽管并非总是）正确地猜测出月亮阻挡太阳的事件的名字是日食。
优势5：工程师不必花很多时间手工编写有关船、动物、月食、繁殖或人类的规则。本质上，所有行为都是通过单一算法结合庞大的数据库而产生的。可以肯定的是，该系统利用了大量间接进入数据库的人类知识，但GPT-2利用这些信息的能力非常强大。
优势6：GPT-2具有惊人的能力来应对错别字、遗漏单词等，类似于搜索引擎透明纠正相似错误的能力。

所有这些因素加在一起，使得GPT-2能够生成一些令人印象深刻的自然语言。1990年代，埃尔曼（Elman）的系统得到了两三句话，例如女人砸盘子和猫走动。本质上来说，GPT-2可以生成无穷无尽的句子，而且通常十分流利。比如：

尽管马库斯博士并不完全喜欢GPT-2，但他不得不承认它的散文写得很好。

小结

尽管如此流利，但GPT-2仍然存在一个严重且棘手的问题，它妨碍了自然语言的理解和推理，也Hinton宣称思维向量可以解决的问题。

这个问题就是：经过仔细检查，很明显该系统不知道它在说什么：它无法遵循简单的事件序列，也无法可靠地知道下一步会发生什么。

例如，假设我问系统，当我将两个奖杯和一张桌子放在一起时会发生什么：

我在桌子上放了两个奖杯，然后又加了一个杯子，总共是五个奖杯，我想，“好吧，我勉强可以忍受，对吧？"

如果我有四个盘子，每个盘子放一个饼干，接下来会发生什么？

我有四个盘子，每个盘子放一个饼干。饼干的总数为 24个，5个作为一组放在顶部，2个放在中间。

当我10月份在Twitter上首次指出这个问题时，Facebook的首席AI科学家认为这是一个数学难题，而且并没有对网络进行专门的数字训练。但是，实际上问题绝不限于数量，问题还有很多。假设我们不使用数字，而是指特定的实体，例如单个动物和物体：

在诸如此类的提问中，正确答案是所提及的实体之一，系统有时可以正确地猜出答案，但失败的次数更多。

位置也是一个难题：

因果理解也有待改进之处：

更不用说，我们无法信任一个给出如此建议的系统：

或健身建议：

为了更好地测试，我在https://transformer.huggingface.co上测试了另一种GPT-2实现，并得到了相同的结果（列出了三种可能的下文，而不是一种）：

在我最近于2019年12月的NeurIPS会议上介绍的一项试验基准中，GPT的准确性约为20.6％。

小结

如果对概念的含义没有清晰的认识，那么GPT-2的答案往往非常不可靠。举一个例子，我将上述的地理语言关系扩展到了五个较小的语言环境，而语料库中可用的数据可能更少。在这五个中，只有一个示例（西班牙城市菲格雷斯）符合早期的模式：

我在米科诺斯长大。我说流利的克里奥尔语

我在菲格雷斯长大。我说流利的西班牙语

我在克利夫兰长大。我说流利的西班牙语

我在特伦顿长大。我说流利的西班牙语

我在汉堡长大。我说流利的英语

如果在talktotransformer.com进行测试，你将很快意识到这种不可预测的特殊行为很常见。

替代措辞通常会产生类似的不可靠结果：

有一个来自德尔福的人。德尔斐（Delphi）是希腊某地。有一个来自威尼斯的女人。威尼斯是意大利某地。这个人最有可能使用的语言是希腊语。

有一个来自德尔福的人。德尔斐（Delphi）是希腊某地。有一个来自威尼斯的女人。威尼斯是意大利某地。这个人最有可能使用的语言是拉丁语。

有一个来自德尔福的人。德尔斐（Delphi）是希腊某地。有一个来自威尼斯的女人。威尼斯是意大利某地。这个人最有可能使用的语言是科普特阿拉伯语。

GPT-2通常会正确预期该人最有可能会说的语言这一短语后应加上一种语言的名称，这一点让人印象深刻，然而，它很难准确地预测准确的语言。在我所检查的每个问题中，GPT-2的答案在每次回答中都大不相同。

小结

如果没有可靠的表示含义，推理也远远不够准确：

斯普林菲尔德的每个人都爱苏珊。彼得住在斯普林菲尔德。因此，直到今晚他才知道苏珊是个鬼。

斯普林菲尔德的每个人都爱苏珊。彼得住在斯普林菲尔德。因此，他显然不喜欢苏珊。

A大于B。B大于C。因此A大于 B

A大于B。B大于C。因此A大于 ______ ，”这也可能成为巨大的成功。

最近，Talmor和Sinha等进行的两项系统研究进一步证实了这种现象：最好情况下的推理都是不可靠的。

小结

OpenAI的联合创始人Ilya Sutkever告诉《纽约客》，“如果像GPT-2这样的机器具有足够的数据和计算能力来完美地预测下一个单词，那就相当于理解。”

在我看来，Sutskever的话是一种误导：预测确实不等于理解。预测是理解的组成部分，而不是整体。有大量文献表明人类如何真正预测句子的后续，并在处理句子的过程中使用这些预测。我们都知道，天空是 ____，这个句子片段之后填写蓝色这个词可能是一个后续，而充满棉花糖则不是。因此，我们更快地得到了蓝色一词，因为它很适合上下文。

但是预测不是万物的度量；我们甚至没有尝试实现Sutskever所追求的完美。我们经常遇到我们没有预料到的单词，然后对其进行处理就可以了。当巴德将他的第18首十四行诗的主题比作夏日时，莎士比亚的听众可能会有些惊讶，但是这种预测上的失败并不意味着他们无法理解他的所作所为。实际上，几乎每次我们听到有趣的内容时，我们就会意识到一个句子采用了我们没有预料到的内容。

语言理解真正涉及的不是预测而是解释。预测该句子片段我将两个奖杯放在一张桌子上，然后添加另一个，总数为 ___，其后应有一个具有其效用的数字，但这与推断发生的情况并不相同。随着时间的推移，这种跟踪对象和事件对于人类如何理解语言和世界至关重要。但这不在GPT-2的范围之内。

这就是为什么GPT-2在写超现实主义散文方面比在非小说类作品中保持稳定表现要好得多的原因。单词级别的预测足以保持较高的流利程度和适度的连贯性，但不能进行真正的对话。实际上，如果您看到来自GPT-2的冗长而连贯的对话，则可能是精心编改过的。还记得《经济学人》中的采访吗？答案是精心挑选的；对于《经济学人》发布的每个答案，其中有四个没有连贯性或趣味性句子并没有被发布。连贯性来自编辑故事的记者，而不是系统本身。

缺陷如此明显，人们为何对GPT-2如此迷恋呢？GPT-2是伊莉莎效应（ELIZA Effect）的完美示例，以第一位AI聊天机器人治疗师（ELIZA）命名（1966年命名），它几乎完全通过匹配关键字起作用；看到“妻子”，它提问你有关人际关系的信息。