从ChatGPT到多模态大模型:现状与未来(多模态)

news/2024/7/7 19:42:44

ChatGPT 训练的核心技术主要包括:

  1. 预训练语言模型;
  2. 有监督微调;
  3. 基于人类反馈的 强 化 学 习 (ReinforcementLearningfrom Human Feedback,RLHF)

首先,通过自监督预训练使语言模型从大规模语料库中学习语言规律,具备基础 理解和生成能力;然后,通过构造指令微调数据集 并对模型进行有监督微调,提升模型对人类意图的理解能 力,从而使模 型按要求执行多种任务;最 后,通过基于RLHF,根据人类偏好进一步提升型性能。 

GPT系列采 用自回归语言建模预训练,即根据语料中前(i-1) 个单词预测第i个单词。自回归任务天然符合生成 式任务的特点,因此 GPT 系列模型具有较强的文本 生成能力。

在模型架构方面,应着力探索具备多种模态综合理解与生成能力的预训练模型架构。我国当前的主流多模态预训练模型支持文本、图像输入和文本输出,缺少对更多模态的支持。一方面,现有模型难以处理图文以外的其他模态输入;另一方面,大多数现有模型仅能输出文本,或采用一个单独的图像生成模型实现图像输出,导致图像生成结果与原问题匹配程度较低,目前未能实现同时生成图像、文本等多模态信息。

在模型应用方面,应着力结合领域知识开发专业、可靠的特定领域大模型。我国目前已具备多个领域的专业知识库基础,可结合领域专业知识,通过
对通用领域的预训练大模型进行微调等方式,构建特定领域专用的大模型,相比通用大模型在各领域场景中具备更广泛的应用场景。同时,医学、电商等领域依赖图像、文本等多模态数据的协同分析,因此更需要领域专用的多模态预训练大模型。在模型部署方面,应着力

研究如何降低预训练模型的计算成本。我国乃至全球目前的预训练大模型均依赖大量的训练数据和计算资源,这对大模型的开发和部署使用造成了难以克服的障碍。因此,研究如何降低预训练大模型的计算成本,包括训练数据量、模型参数量等方面,具有重要的研究和应用价值。本章讨论的数据—知识双轮驱动作为路线之一,同时也有其他路线尚待进一步探索。

过去一年主流的多模态大模型按时间顺序进行排列,可以看到这样一张时间线图:

来自论文题目:MM-LLMs: Recent Advances in MultiModal Large Language Models

参考:腾讯发表多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法 - 知乎 (zhihu.com) 


http://lihuaxi.xjx100.cn/news/2157980.html

相关文章

Go导入私有仓库

使用go.mod依赖第三方库时,有以下要求: 代码仓库托管于VCS(版本控制系统);代码仓库是公开的;仓库地址使用域名访问;仓库域名支持HTTPS访问。 对于自己或者公司内部搭建的私有git,这些条件是比较难同时满足…

数学基础:矩阵

来自: https://www.shuxuele.com/algebra/matrix-determinant.html 一、矩阵的行列式 二、矩阵简单知识 三、矩阵乘法 四、单位矩阵 五、逆矩阵一:简单2阶矩阵求法 六、逆矩阵二:3、4阶逆矩阵求法 6.1 求余子式矩阵 6.2 求代数余子式矩阵 6.3 求伴随矩阵…

log4j2远程代码执行漏洞原理与漏洞复现(基于vulhub,保姆级的详细教程

读者只要保证你的站点目录里有Exploit.class就行,至于我目录里有啥其他的读者不用在意。接下来,我们在攻击机启动LDAP服务。这里使用工具marshalsec-0.0.3-SNAPSHOT-all.jar来快速开启,这个工具在我的上一篇博客中有提到,详情见 …

【iOS ARKit】AR Quick Look 概述

为更好地传播共享 AR 体验,苹果公司引入了 AR Quick Look,并在iOS 12及以上版本系统中深度集成了 AR Quick Look,因此可以通过iMessage、Mail、Notes、 News、 Safari 和 Files 直接体验 AR,AR Quick Look提供了在 iPhone 和iPad …

Vue 3.0单文件组件实现手机号和身份证号加密显示功能

随着Web应用程序的发展,我们经常需要处理用户敏感信息,如手机号码和身份证号码。为了保护用户隐私,我们需要在前端对这些信息进行加密处理,以避免直接暴露在页面上。在这篇博客中,我们将介绍如何使用Vue 3.0单文件组件…

Idea运行单元测试 Test framework quit unexpectedly

Idea运行单元测试 Test framework quit unexpectedly idea运行单元测试时报错如图 解决办法 打开setting,找到Maven下的Running Tests,去掉argLine勾选,

rust学习(recursive mutex 实现)

问题: 编写如下代码的时候出现死锁: pub fn test_double_lock() {let t Arc::new(Mutex::new(1));let t1 t.clone();let t2 t.clone();let h std::thread::spawn(move || {println!("hello trace1");let l1 t1.lock().unwrap();println…

python课后习题三

题目&#xff1a; 解题过程&#xff1a; 模式A&#xff1a; num int(input("&#xff08;模式A&#xff09;输入数字&#xff1a;")) for i in range(num): for j in range(num): if j < i 1: …