神经网络论文研读-多模态方向-综述研读(上)

翻译以机翻为主

原文目录

在这里插入图片描述

前言

在这里插入图片描述
图1：LMU印章（左）风格转移到梵高的向日葵绘画（中）并与提示混合 - 梵高，向日葵 -通过CLIP+VGAN（右）。在过去的几年中，自然语言处理（NLP）和计算机视觉中使用的方法取得了一些突破。除了对单模态模型的这些改进之外，大规模多模态方法已成为一个非常活跃的研究领域。在本次研讨会中，我们回顾了这些方法，并试图创建一个坚实的该领域的概述，从当前最先进的方法分别是深度学习的两个子领域。此外，建模框架讨论一种模态转换为另一种模态的地方第 3.1 章和第3.2章），以及利用一种模式来加强对方的表征学习（第3.3章和第3.4章）。总结第二部分，体系结构侧重于处理两者同时介绍了各种模式（第3.5章）。最后，我们还介绍了其他模式（第4.1章和第4.2章）以及通用多模态模型（第4.3章），能够处理不同的任务一个统一架构中的不同模式。一个有趣的应用“（生成艺术，第4.4章）最终完成了这本小册子。

在这里插入图片描述

## Foreword

本书是大学教学实验的结果。我们是受到克里斯托夫·莫尔纳（Christoph Molnar）周围的一群其他博士生的启发，他们以这种形式举办了另一场关于可解释机器学习的研讨会。而不是让每个学生在研讨会论文上工作，这或多或少与其他学生隔离，我们希望促进学生之间的合作学生并使他们能够产生一个有形的输出（这不是写的
将其余时间花在（数字）抽屉中）。在2022年夏季学期，一些统计学、数据科学和计算机科学专业的学生报名参加了我们的研讨会题为“多模态深度学习”，并有（在启动前会议）不知道他们报名了什么：写了一整本书到学期末。我们受到举办研讨会的考试规则的约束，但是否则，我们可能会偏离传统格式。我们在几个方面偏离了方式：

每个学生项目都是本小册子的一章，内容链接到其他伴侣，因为主题。
.我们给学生挑战，而不是论文。挑战是调查来自的特定有影响力的近期模型或方法NLP，计算机视觉或多模态学习领域。
我们设计的作品超越了研讨会。
我们强调合作。学生写了引言小组章节并相互审查单独的文本。

在这里插入图片描述

摘要

在这里插入图片描述
人类有五种基本感官：听觉、触觉、嗅觉、味觉和视觉。
拥有这五种模式，我们能够感知和理解我们周围的世界。因此，“多模式”意味着组合不同的渠道同时了解我们周围的信息。例如当幼儿学习“猫”这个词时，他们会使用不同的方式说这个词大声说出来，指着猫，发出“喵喵”的声音。使用人类学习过程作为榜样，人工智能（AI）研究人员还可以尝试结合不同的模式来训练深度学习模型。安娜从表面上看，深度学习算法基于神经网络经过训练以优化一些目标，该目标通过所谓的损失函数。优化，即最小化损失，是通过称为梯度下降的数值过程。因此，深度学习模型只能处理数字输入，并且只能生成数字输出。然而，在多模式任务中，我们经常遇到非结构化数据喜欢图片或文字。因此，第一个主要问题是如何表示以数字方式输入。关于多式联运任务的第二个问题是如何正是为了结合不同的模式。例如，一个典型的任务可能是训练深度学习模型以生成猫的图片。首先计算机需要理解文本输入“cat”，然后以某种方式理解将此信息转换为特定图像。因此，有必要识别文本输入中的单词与图像输出中像素之间的空间关系。什么可能很容易对于学龄前的幼儿来说，对计算机来说是一个巨大的挑战。两者都必须学习对包含含义和动物的外观。现代深度学习的常见方法是生成嵌入，在某些数字上将猫表示为向量潜在空间。然而，为了实现这一目标，不同的方法和算法。
近年来已经开发了架构。本书给出了一个概述最先进的（SOTA）多模态深中使用的不同方法学习克服非结构化数据和组合带来的挑战不同模式的输入。

在这里插入图片描述

小册子大纲

由于多模态模型通常使用文本和图像作为输入或输出，因此方法。自然语言处理（NLP）和计算机视觉（CV）作为第2章的基础介绍。NLP领域的方法尝试处理
文本数据，而CV处理图像处理。关于NLP（第2.1小节），一个非常重要的概念是所谓的词嵌入，如今，这是（几乎）所有多模态深度学习的重要组成部分。架构。这一概念也为基于变压器奠定了基础像BERT（Devlin等人，2018a）这样的模型取得了巨大的改进在几个 NLP 任务中。特别是（自我）注意机制（Vaswani等人，2017a）的变压器彻底改变了NLP模型，这就是为什么他们中的大多数依靠变压器作为骨干。在计算机视觉中（第 2.2 小节）不同的网络架构，即ResNet（He等人，2015），EfficientNet（Tan和Le，2019a），SimCLR（Chen等人，2020a）和BYOL（Grill等人，2020b），将推出。在这两个领域，比较不同的方法及其在具有挑战性的基准上的表现。为因此，第2章最后2.3小节对CV和自然语言处理。第二章（见3）侧重于不同的多式联运架构，涵盖了文本和图像如何组合的各种方式。所呈现的模型结合并推进了NLP和CV的不同方法。首先查看Img2Text任务（小节3.1），数据集Microsoft COCO对象识别（Lin等人，2014a）和网格记忆转换器
图像字幕（M2变压器）（Cornia等人，2019）将被展示。相反，研究人员开发了基于生成图片的方法短文本提示（第 3.2 小节）。完成此任务的第一个模型
是生成对抗网络（GAN）（Goodfellow等人，2014b）和变分自动编码器（VAE）（Kingma和Welling，2019）。这些方法近年来得到了改进，今天的SOTA变压器架构和文本引导扩散模型，如 DALL-E（Ramesh 等人，2021a）和 GLIDE（尼科尔等人，2021a）取得了显着的成果。另一个有趣的问题是利用图像来支持语言模型的方式（第3.3小节）。这可以通过顺序嵌入、更高级的接地嵌入来完成或者，再次，在变压器内部。另一方面，也可以查看文本.

因为翻译问题，本文变压器一律代指transformer

支持 CV 模型，如 CLIP（Radford 等人，2021b）、ALIGN（Jia 等人，2021a）和佛罗伦萨（Yuan 等人，2021）（第 3.4 小节）。他们使用粉底模型意味着重用模型（例如 DALL-E 2 中的 CLIP）以及将文本与图像连接起来的对比损失。此外，零射击使无需昂贵的微调即可对新的和看不见的数据进行分类。尤其是用于图像的开源架构 CLIP（Radford 等人，2021b）分类和世代在去年引起了很多关注。最后第二章，一些处理文本和图像的进一步架构同时引入（第3.5小节）。例如，Data2Vec 使用言语、视觉和语言的学习方法相同，并以这种方式旨在找到一种通用方法来处理一个体系结构中的不同模式。此外，VilBert（Lu等人，2019a）扩展了流行的BERT架构。通过实现协同注意来处理图像和文本作为输入。这方法也用于谷歌的 Deepmind 火烈鸟（Alayrac 等人，2022 年）。在此外，火烈鸟旨在用一种视觉语言处理多项任务通过少镜头学习和冻结预先训练的视觉和语言进行建模
型。在最后一章（见4）中，介绍了也能够处理的方法文本和图像以外的形式，例如视频、语音或表格数据。这里的总体目标是找到一个基于以下挑战而不是模式。因此，需要处理问题多模态融合和对齐，并决定是使用连接还是协调代表（第4.1小节）。此外，我们更详细地介绍关于如何准确组合结构化和非结构化数据（小节）4.2）. 因此，近年来发展起来的不同融合策略将是提出。本书通过生存分析中的两个用例来说明这一点。和经济学。除此之外，另一个有趣的研究问题是如何
在一个所谓的多用途模型中处理不同的任务（小节 4.3），例如它旨在由谷歌研究人员（Barham 等人，2022 年）在他们的“途径”模式。最后但并非最不重要的一点是，我们展示了一个示例性应用程序艺术场景中的多模态深度学习，其中图像生成模型像 DALL-E（拉梅什等人，2021a）是用于在该地区创作艺术品生成艺术（第4.4小节)

介绍模式

作者：杰姆·阿库斯、弗拉达纳·贾科维奇、克里斯托弗·本杰明·马夸特
主管：马蒂亚斯·阿森马赫
自然语言处理（NLP）已经存在了大约50年，但是它比以往任何时候都更加重要。在以下方面取得了多项突破这个机器学习分支，涉及口语和书面语言。例如，学习单词的内部表示是其中之一过去十年取得更大进展。词嵌入（Mikolov et al. （2013a），Bojanowski et al. （2016））使之成为可能，并允许开发人员编码单词作为捕获其基础语义内容的密集向量。在此方式，相似的单词在低维中彼此靠近嵌入功能空间。编码器-解码器解决了另一个重要挑战（也称为序列到序列）架构Sutskever等人（2014），其中可以将输入序列映射到不同长度的输出序列。它们对于机器翻译、视频等复杂任务特别有用字幕或问答。这种方法做出最少的假设在序列结构上可以处理不同的词序并活跃，以及被动语态。一个绝对重要的最先进的技术是Attention Bahdanau等人。（2014），它使模型能够像人类一样主动转移注意力做。它允许一次遵循一个想法，同时抑制信息与任务无关。因此，它已被证明显着提高机器翻译等任务的性能。通过给解码器访问直接查看源头，避免了瓶颈和
同时，它提供了通往遥远状态的快捷方式，从而有助于梯度消失问题。最新的序列数据建模之一技术是变形金刚（Vaswani等人（2017b）），它完全基于。注意，不必按顺序处理输入数据（如 RNN）。因此，深度学习模型在记忆上下文诱导方面更好。在长序列中较早。它是目前NLP的主导范式，并且甚至可以更好地利用 GPU，因为它可以执行并行操作。变压器架构，如BERT（Devlin等人，2018b），T5（Raffel等人，2019a）或GPT-3（Brown等人，2020）在大型语料库上进行预训练，并且可以针对特定语言任务进行微调。他们有能力生成故事、诗歌、代码等等。在上述的帮助下。