[AI OpenAI] 提取GPT-4中的概念

news/2024/7/7 20:42:31

总结:

研究人员采用新的可扩展方法,将GPT-4的内部表示分解为1600万个通常可解释的模式,这些模式被称为“特征”,目的是提高语言模型的透明度和可解释性。通过使用稀疏自编码器,研究人员能够识别与特定概念相关的特征,例如人类不完美、价格上涨、修辞问题等。尽管这些特征提高了模型的解释性,但仍然存在挑战,包括特征的准确解释、自编码器对原始模型行为的完整捕捉,以及对模型如何计算和使用这些特征的理解。


我们使用新的可扩展方法将GPT-4的内部表示分解为1600万个通常可解释的模式。

稀疏自编码器封面

目前,我们还不理解如何理解语言模型内部的神经活动。今天,我们分享了改进的方法来找到大量“特征”——我们希望这些活动模式对人类来说是可解释的。我们的方法比现有工作更具可扩展性,我们使用它们在GPT-4中找到了1600万个特征。我们与研究社区分享了论文(打开新窗口)、代码(打开新窗口)和特征可视化(打开新窗口),以促进进一步的探索。

解释神经网络的挑战

与大多数人类创造物不同,我们并不真正理解神经网络的内部工作原理。例如,工程师可以根据组件的规格直接设计、评估和修复汽车,确保安全和性能。然而,神经网络并不是直接设计的;我们设计的是训练它们的算法。产生的网络并不被很好理解,也不能轻易分解成可识别的部分。这意味着我们不能像推理汽车安全那样推理AI安全。

为了理解和解释神经网络,我们首先需要找到神经计算的有用构建块。不幸的是,语言模型内部的神经激活以不可预测的模式激活,似乎同时代表了许多概念。它们也密集地激活,意味着每个激活在每个输入上总是被触发。但是现实世界的概念是非常稀疏的——在任何给定的上下文中,只有一小部分概念是相关的。这促使了稀疏自编码器的使用,这是一种方法,用于识别神经网络中对产生任何给定输出重要的少数“特征”,类似于一个人在推理情况时可能想到的一小组概念。它们的特征显示出稀疏的激活模式,自然地与人类易于理解的概念对齐,即使没有直接的解释性激励。

博客稀疏自编码器神经光

然而,训练稀疏自编码器仍然存在严重挑战。大型语言模型代表了大量概念,我们的自编码器可能需要相应地巨大,以接近前沿模型的概念全覆盖。学习大量稀疏特征是具有挑战性的,过去的工作并没有显示出良好的可扩展性。

我们的研究进展:大规模自编码器训练

我们开发了新的最先进的方法论,允许我们将稀疏自编码器扩展到前沿AI模型上的数千万个特征。我们发现我们的方法论展示了平滑和可预测的扩展,比先前技术有更好的规模回报。我们还引入了几个新的特征质量评估指标。

我们使用我们的配方在GPT-2小型和GPT-4激活上训练了各种自编码器,包括GPT-4上的1600万特征自编码器。为了检查特征的解释性,我们通过展示特征激活的文档来可视化给定特征。这里是我们找到的一些可解释特征:

限制

我们对可解释性最终能够提高模型的可信度和可控性感到兴奋。然而,这仍然是一项早期工作,存在许多限制:

  • 与之前的工作一样,许多发现的特征仍然难以解释,许多特征在没有明显模式的情况下激活,或者表现出与它们似乎通常编码的概念无关的虚假激活。此外,我们没有好的方法来检查解释的有效性。
  • 稀疏自编码器并没有捕捉到原始模型的所有行为。目前,将GPT-4的激活通过稀疏自编码器处理得到的结果相当于一个计算量减少约10倍的训练模型。为了全面映射前沿大型语言模型中的概念,我们可能需要扩展到数十亿甚至数万亿个特征,即使使用我们改进的扩展技术,这也是一项挑战。
  • 稀疏自编码器可以在模型的某一点找到特征,但这只是解释模型的一步。需要更多的工作来理解模型是如何计算这些特征的,以及这些特征是如何在模型的其余部分中被使用的。

展望未来,并开放我们的研究

尽管稀疏自编码器研究令人兴奋,但前面还有一条漫长的道路和许多未解决的挑战。短期内,我们希望我们发现的特征能够实际用于监控和引导语言模型的行为,并计划在我们前沿模型中测试这一点。最终,我们希望有一天,可解释性能够为我们提供新的方式来推理模型的安全性和鲁棒性,并通过提供关于它们行为的强大保证,显著增加我们对强大AI模型的信任。

今天,我们分享了一篇论文(打开新窗口),详细介绍了我们的实验和方法,我们希望这将使研究人员更容易大规模训练自编码器。我们正在发布一套完整的GPT-2小型自编码器,以及使用它们的代码(打开新窗口),和特征可视化工具(打开新窗口),以了解GPT-2和GPT-4特征可能对应的内容。


  • 原文
  • 博客 - 从零开始学AI
  • 公众号 - 从零开始学AI

http://lihuaxi.xjx100.cn/news/2196539.html

相关文章

《精通ChatGPT:从入门到大师的Prompt指南》第1章:认识ChatGPT

第1章:认识ChatGPT 1.1 ChatGPT是什么 ChatGPT,全称为Chat Generative Pre-trained Transformer,是由OpenAI开发的一种先进的自然语言处理模型。它利用了深度学习中的一种技术——Transformer架构,来生成类人文本。ChatGPT通过对…

Android 车载 Audio 中 有关系统按键无声的问题排查小结

本文简单记录一下,车载中系统按键音的问题排查从 App --> FrameWork --> HAL层 的问题排查。 通过日志分析: AudioStreamOutSink 这个有数据写入到 HAL 中(方式一) 查看 dump 文件。(方式二) 先 …

PostgreSQL中有没有类似Oracle的dba_objects系统视图

PostgreSQL中有没有类似Oracle的dba_objects系统视图 在PostgreSQL中,没有一个完全集成了所有对象信息的视图(类似于Oracle中的DBA_OBJECTS)。但是,PostgreSQL提供了一些系统目录表和视图,可以用来获取数据库对象的信…

鸿蒙轻内核M核源码分析系列十九 Musl LibC

LiteOS-M内核LibC实现有2种,可以根据需求进行二选一,分别是musl libC和newlibc。本文先学习下Musl LibC的实现代码。文中所涉及的源码,均可以在开源站点 https://gitee.com/openharmony/kernel_liteos_m 获取。LiteOS-M内核提供了和内核相关的…

Solon2分布式事件总线的应用价值探讨

随着现代软件系统的复杂性日益增加,微服务架构逐渐成为开发大型应用的主流选择。在这种架构下,服务之间的通信和协同变得至关重要。Solon2作为一个高性能的Java微服务框架,其分布式事件总线(Distributed Event Bus)为微…

为Android组件化项目搭建Maven私服

概览 文章目录 概览前言搭建 maven 私服服务器环境jdk安装配置nexus安装配置管理创建存储点、仓库 项目中使用 maven 私服上传 module 到仓库自动发布 module手动上传单个aar包 引用仓库中的 modulebuild.gradle引入远程module FAQ开发阶段有些module用远程依赖,有些…

路径

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 用于定位一个文件或者目录的字符串被称为一个路径。在程序开发时,通常涉及两种路径,一种是相对路径,另一种是绝对…

实验二、网络属性设置《计算机网络》

精神状态 be like:边写边崩溃,越写越得劲儿。 目录 一、实验目的: 二、实验内容 三、实验步骤: 四、实验小结 一、实验目的: 掌握 IP 地址、子网掩码等网络属性的设置。 二、实验内容 预备知识: 1、…