大模型的可解释性

摘要：

可解释性为基础大模型提供了清晰的认识:支撑基础大模型的深度神经网络的不透明性，以及基础大模型的预期普遍性，提高了对这些模型及其能力的理解需求。目前的可解释性方法一般是为演绎和解释特定任务模型的行为而设计的;基础大模型的性质(即;这些模型所适用的任务范围广泛，以及它们所获得的意想不到的紧急属性)为可解释性研究带来了新的挑战。为了对基础模型的可解释性进行讨论，我们提出了一个模型-多个模型范式，其目的是确定一个模型(基础大模型)及其多个模型(基础大模型适配的衍生模型)共享决策构建块的程度。除了解释所涉及的决策组件外，我们还进一步讨论了基础模型背景下的可解释性(例如，模型生成的事后解释的有效性)以及驱动模型行为的机制(这可能阐明理解基础模型可以扩展到理解其适应衍生品的程度)。考虑到我们认为可解释性在基础模型研究中的关键作用，我们最后评估了可解释性和不可解释性的社会影响。

与大多数其他机器学习模型相比，基础大模型的特点是训练数据和复杂性的大幅增加，以及不可预见能力的出现:基础大模型能够完成不可预见的任务，并以不可预见的方式完成这些任务。因此，越来越多的基础大模型被采用，为理解其行为创造了越来越多的愿望、需求和前所未有的挑战。

与特定任务模型相比，基础大模型是在庞大且不同的数据集上进行训练的，可能跨越许多领域和模式。通过这种训练，基础模型学习了非常广泛的行为，这些行为在任务和领域之间可能会有很大的不同，正如它们适应不同类型的下游任务的能力所证明的那样，并表现出针对每个任务的特定行为。以GPT-3为例，它被训练成一个巨大的模型来简单地预测文本中的下一个单词。虽然这是一个非常具体且易于定义的学习任务，但它使GPT-3能够获得远远超过下一个单词预测的能力，通过将其与包含各种互联网文本的庞大训练数据集相结合。因此，当提供一些训练样本时，GPT-3现在可以适应明显超出其原始训练任务范围的行为，例如简单的算术和计算机编程。这表明，即使是回答关于基础模型的看似最简单的问题:它有什么能力?

此外，这些不同的功能在多大程度上依赖于不同的或共享的模型机制，类似于模型中的算法构建块，这是一个悬而未决的问题。一方面，基础模型可以被解释为单个模型，它利用一些可推广的模型机制集来跨任务和领域执行良好。在这种情况下，可以通过识别和描述这些机制来获得对其行为的全面理解。另一方面，基础模型对不同任务深刻适应不同行为的能力表明，它们也可以被理解为大量独立专家模型的集合，每个模型都针对特定任务量身定制。例如，GPT-3用于算术的模型参数似乎不太可能与用于从英语翻译成法语的参数有多大关系。在这种情况下，对一个任务中模型行为的解释因此不一定能提供其他任务中行为的信息。我们将其称为基础模型的一个模型-多个模型性质(参见图1)，并认为理解基础模型在一个和多个模型之间的这个频谱中的位置将是理解其行为的核心。

为了使这一研究领域系统化，我们提出并讨论了理解基础模型的三个层次:我们首先讨论了理解模型能够做什么的挑战和机遇，然后讨论了为什么它会输出某些行为，最后讨论了它是如何做到的。具体来说，问题的目的是描述模型在不窥视模型内部的情况下可以执行的行为类型，而问题的目的是根据数据中的潜在原因提供模型行为的解释，以及问题的目的是如何理解产生这些行为的内部模型表示和机制。在介绍了所有三个层次之后，我们最后讨论了基础模型的不可解释性和可解释性所导致的潜在后果。

图1所示。基础模型的一模型多模型性质:一个核心的可解释性问题是理解基础模型在一个模型和许多模型之间的频谱上的位置。作为一个模型，行为可以通过识别和描述用于跨任务产生行为的有限数量的可推广模型机制(例如，为单词分配意义、比较数量和执行算术的机制)来实现可解释性。与许多模型一样，对一个任务中模型行为的解释不一定能提供其他任务中行为的信息，因此需要对每个任务中的行为进行独立研究。

1. 描述行为

对一项技术最简单的理解通常被认为是知道这项技术是做什么的。这个看似简单的问题对于基础模型来说是非常具有挑战性的，因为这些模型能够执行无数不可预见的行为和任务。

特定于任务的神经网络模型被训练成在单一领域执行单一任务，例如图像分类。因此，它们的任务和输入输出域是明确的;然而，即使对于这些模型，在给定特定输入的情况下，要确切知道模型将做什么也可能是一项挑战。例如，对于两个感知上相似的输入，模型行为可能会出乎意料地大不相同或相同数据的两个亚种群(例如，按种族或性别分层)。

对于基础大模型来说，表征模型行为的挑战被放大了许多倍。模型能够执行的任务空间通常很大且未知，输入和输出域通常是高维且巨大的(例如，语言或视觉)，并且模型较少受限于特定领域的行为或故障模式。例如，考虑一下GPT-3在大型语言语料库上的惊人能力，并随后发展出生成大多数功能的计算机程序片段的能力。因此，表征基础模型行为的一个关键挑战是识别它所具有的能力。甚至更进一步，对于一个基础模型可以执行的每一个任务，可能有很多或者无限多，所有的

当试图理解更简单的、特定于任务的模型的行为时，人们仍然面临着挑战。

描述基础大模型可以执行的每个“任务”，由于它们的一个模型-多个模型的性质而变得更加复杂(参见图1)。再次以GPT-3为例，表明它可以通过简单的提示来定制许多任务。然而，每个任务都可以通过许多可能的提示来指定，提示的微小变化可能导致模型行为的有意义的变化。例如，电影评论的情感分类任务可以通过呈现电影评论后加上“她对这部电影的情感是……”来指定。或“我的总体感觉是这部电影是……”;尽管这些提示似乎构成了密切相关的任务，但GPT-3对每个提示的响应准确性不同。像这样的观察提出了关于提示特征与由此产生的模型行为之间关系的重要问题。具体来说，对看似相似的提示的有意义的不同反应实际上可以被认为是来自同一个模型，还是来自高度不同的模型机制，并且在一个任务中描述基础模型(或其适应衍生品)的行为是否真的有助于描述模型其他可能的适应行为?

为了确定基础模型具有和缺少的功能，研究人员可以利用受控评估。在这里，领域专家设计已知需要特定能力的提示，然后研究模型正确响应这些提示的能力。例如，心理语言学家设计了提示，要求语言模型在语法正确的句子和具有特定语法错误的相同句子之间进行选择;知道模型是否始终更喜欢语法正确的句子而不是语法不正确的句子，可以告诉我们模型是否具有识别这种不准确所需的特定语法能力。

考虑到基础模型可能具有巨大的能力范围，以及我们目前缺乏任何用于先验地确定基础大模型是否具有给定能力的通用方法，像这样的定制评估至关重要。它们允许探索基础模型能够实现的行为范围，同时需要最小的模型访问:我们只需要呈现输入并接收模型输出，我们不需要依赖于对模型的实现或参数的访问。考虑到基础模型可能能够(或不能)完成的无限多的理想和不理想的任务、子任务和行为，表征模型行为和能力将变得越来越具有挑战性和重要性。我们认为，与其依赖少数专家来制定和测试可能的行为，不如将这些类型的分析扩展到测试更多的行为，这将是至关重要的，部分原因是通过向许多学科的不同社区和专家开放这条探索线，以及通过增加对这些评估的访问和规模。

2. 解释行为

除了描述基础大模型正在做什么之外，人们还可以尝试通过根据数据中的潜在原因提供对这些行为的解释来描述它执行某些行为的原因。虽然目前提供这种行为解释的解释方法可以揭示影响模型响应的输入的质量，但它们通常需要完全访问模型才能做到这一点，并且通常在阐明任何一般模型机制的能力方面受到限制，基础模型使用这些机制来响应许多输入、任务和领域。

目前的解释方法通常可以被理解为不同的模型，这些模型旨在为另一个黑箱模型的特定行为提供解释。重要的是,这些方法与被分析行为的模型是分开的，模型本身是不可解释的。这种分离可能是有问题的，因为所提供的解释可能缺乏可信度，因为对行为的原因不可靠和误导。更进一步，不合理的解释可能会诱使人类更加信任不合理的模型。随着我们从特定任务模型过渡到广泛采用基础模型，这些类型的担忧也会增加，因为它们的行为要复杂得多。

目前的解释方法在很大程度上可以分为提供模型行为的局部或全局解释。局部解释试图解释模型对特定输入的响应，例如，通过将行为的每个输入特征归因于相关性，或通过识别与行为最相关的训练样本。相比之下，全局解释不依赖于特定的输入，而是旨在揭示影响模型行为的整体数据质量，例如，通过综合模型与行为最密切相关的输入。

局部和全局解释为特定任务模型的行为提供了有用的见解。在这里，由此产生的解释通常被认为是导致行为的模型机制的启发式;例如，当模型读取手写数字“7”时，看到一个解释将水平线高度重视，很容易产生这样的印象，即水平线是一个普遍重要的特征，模型使用它来识别所有的7，或者可能区分所有的数字。

然而，考虑到基础模型的一个模型-多个模型的性质，我们应该注意不要从对行为的特定解释跳到对模型行为的一般假设。虽然目前的解释方法可能会揭示特定的行为，例如，通过识别强烈影响这些行为的数据方面，所得到的解释并不一定能为其他(甚至看似相似的)输入提供对模型行为的见解，更不用说其他任务和领域了。

另一种方法可能是以自我解释的形式利用基础模型的生成能力，从而完全回避这些类型的事后解释。即通过训练这些模型不仅生成对输入的响应，而且共同生成对该响应的人类可理解的解释。虽然目前还不清楚这种方法是否会在未来取得成果，但我们有理由持怀疑态度:语言模型，以及现在的基础模型，在没有任何事实基础的情况下，在生成流畅、看似合理的内容方面表现出色。简单的自我生成的“解释”也可以效仿。因此，辨别模型创造听起来合理的解释的能力与提供对其行为的真实见解之间的区别是很重要的。

3. 描述模型机制

对系统的深刻理解通常被认为意味着理解系统是如何执行的:它包含哪些知识和机制，以及它们是如何组合成整体的?

如果这确实是可能的，那么描述基础模型中的表征以及在其上运行的机制将是满足彻底理解这些增殖模型的愿望的核心;而无论这些机制是多而具体的，还是少而一般化的，它们都是基础模型在不同任务和领域中采用广泛行为的能力的核心。

为了使模型表征和机制的概念具体化，考虑GPT-3表现出的一个简单行为:它很快观察到GPT-3在提供小数字加法的例子时所做的事情，然后查询执行两个新数字的加法:在高概率下，它预测了加法的正确结果。当被问及为什么GPT-3会有这样的表现时，人们可以在输入中找到证据，比如它的提示对它的反应有很大的影响(这些可能是两个要加的数字，但不一定)，或者GPT-3的训练数据对它的反应有很大的影响(这些可能是加法的例子，但不一定)。深入研究该模型，我们可以设想更深入地了解GPT-3用于添加特定数字对的机制以及它用于添加其他任意数字对的机制。我们还可以设想对这些机制是否类似于“加法”的数学概念或仅仅与这个概念相关有更深入的理解。

通过理解单个模型机制，我们可以建立对基础大模型复杂行为的组合性理解。一个比数字加法稍微复杂的任务是解决数学单词问题，其中数字带有单位，问题以自然语言呈现。一旦我们理解了模型执行加法的机制(或机制)，我们就可以研究这种机制是否被用作解决单词问题的中间步骤。如果使用了加法机制，我们已经建立了对模型如何解决单词问题的理解，我们增加了对基础模型概括数量和加法概念的信心(而不是另一种相关性或启发式)，而且，我们还增加了对预测模型为什么(它关注的是输入的哪些部分)和输出是什么的能力的信心(两个数字的加法)。如果不使用加法机制，我们可能会保留一种健康的怀疑态度，即这是真正的加法，并且我们可以研究使用哪些表示和机制来代替。

重要的是要意识到，有许多更复杂和有关模型机制的潜在情况，例如，从名称中的字符或图像中的像素估计种族。在基础模型中建立这种机制的证据及其使用可以支持道德或法律责任，以禁止模型执行预测性警务、市场营销、贷款申请和监视等任务。

已经出现了大量的方法来研究神经网络模型的这些内部方面。通常，这些方法将模型分离为节点(例如，神经元，层或层的一部分)，然后询问节点中捕获的表示或节点组装的机制。有些方法是假设驱动的:通过假设节点可能捕获某些信息(例如，一个词的语法特征，或一个人的种族)，可以探测所有节点以量化它们提供的信息的数量。其他方法建立在解释方法的基础上，它们不是识别哪些数据导致某种行为，而是寻求识别哪些数据导致某个节点激活，或者哪些节点导致模型中稍后的另一个节点激活，从而揭示模型表示和机制的集合。综合起来，这些方法检查了模型的内部，并为基础模型的行为的持续探索提供了基础。然而，基础模型中潜在的表示和机制的数量是巨大的，特别是考虑到它们的一个模型-多个模型的性质，这些类型的方法通常只捕获模型内部的一小部分。因此，扩大表征和机制的发现并阐明那些与模型行为最相关或最普遍的表征和机制是一个公开的挑战。与解释基础模型的许多方法一样，这些类型的探索将受益包括并支持更多样化和跨学科的研究人员，以及更容易获得、更灵活和可扩展的发现方法。

总之，我们相信基础大模型的一个模型-多个模型的性质为当前的可解释性研究提供了新的机会和挑战:单个基础模型有许多适应性，我们根本不知道它们共享公共机制的程度。在机制共享的程度上，理解基础模型可能是表征这些机制及其关系的一个可处理的问题。在机制是独立的程度上，基础模型的每次适应都必须独立分析，从而导致对基础模型的任何新适应的性质产生深刻的不确定性。

4. 不可解释性和可解释性的影响

最后，我们想强调的是，基础大模型的广泛采用与最近许多跨学科研究人员的请求不一致，即不要在高风险决策中使用复杂的黑盒模型，而是要专注于更具有内在可解释性的模型的长期开发和应用。

在这些请求中，旨在解释基础模型的工作是一把双刃剑。大型机器学习模型，以及现在的基础模型，最常被强大的公司和机构部署，可解释性方面的渐进式进步可以被夸大为“道德清洗”，并继续使用模型，就好像它们已经实现了可解释性一样，掩盖了它们仍然远远低于传统算法可解释性标准的现实。此外，当可解释性的方法通常假定模型及其实现和参数易于访问时，可解释性不仅可以作为强大机构的掩护，还可以将模型知识集中在同一个人手中。对于那些致力于基础模型可解释性的人来说，始终如一地询问自己是在努力使基础模型对研究人员和模型所有者可解释性还是对每个人都可解释性，这是一种责任。

同时，就基础模型已经被部署的程度而言，可解释性的工作提供了独特的机会，可以将基础模型的知识，从而将权力，转移回数据化和评估的人手中。解释可以促进对模型的社会突出方面的发现。更根本的是，创建允许任何人解释基础模型行为的可访问方法的工作将权力转移给了不同的人，创造了调查模型的机会，发现对个人或其社区重要的模型方面的机会，以及有意意义地同意、改进或完全反对基础模型使用的机会。最后，对于研究人员来说，重要的是将基础模型的可解释性不仅视为一个目标，而且视为一个问题:研究可以探索和评估基础模型可解释性的缺乏是内在的，应该被深入研究并被广泛认为是一个阻碍这些系统使用(或增加监管)的严重问题，或者未来的基础模型是否有可能为所有人维持高标准的可解释性。