预训练+微调任务

news/2024/7/8 5:47:40
1.ELMO微调
    2.微调阶段
        下游任务:用训练好的模型继续之后的任务
        E=r(S1*E1(词特征)+S2*E2(句特征)+S3*E3(语义特征))
    注意:ELMO并不是把文本编码成向量之后,直接作为下游任务模型输入,
        而是将ELMO编码的向量作为新的单词特征补充到下游任务。
        ELMO是基于特征的微调。

2.Bert微调:
    bert通过bert模型,可以编码得到一个句子的句子向量,那么我们不会像ELMO
    一样把这个向量作为新特征补充到下游任务,而是直接将该向量作为下游任务的
    输入。当最终代价产生的时候,反向传播,就会将梯度传到句子向量cls上,那么
    就会更新到bert里边的参数。因此叫做基于微调的模型。
3.GPT微调:
    GPT通过GPT模型,可以编码得到一个句子的句子向量,那么我们不会像ELMO
    一样把这个向量作为新特征补充到下游任务,而是直接将该向量作为下游任务的
    输入。当最终代价产生的时候,反向传播,就会将梯度传到句子向量cls上,那么
    就会更新到GPT里边的参数。因此叫做基于微调的模型。

http://lihuaxi.xjx100.cn/news/299066.html

相关文章

八、Nacos服务注册和配置中心

SpringCloud Alibaba Nacos服务注册和配置中心 Nacos简介 为什么叫Nacos 前四个字母分别为Naming和Configuration的前两个字母,最后的s为Service 是什么 一个更易于构建云原生应用的动态服务发现,配置管理和服务管理中心 Nacos:Dynamic…

Java中常用判断方法

常用判断方法对象的判断(Objects工具类-Java自带)Objects.equals(Object a, Object b)Objects.isNull(Object obj)Objects.nonNull(Object obj)Objects.toString(Object o, String nullDefault)字符串的判断( StringUtils工具类-Hutool&#…

Android 11.0 设置默认8时区和默认24小时制

目录 1.概述 2.设置默认8时区和默认24小时制的核心类 3.设置默认8时区和默认24小时制的核

【华为上机真题 2022】按照身高体重排队

🎈 作者:Linux猿 🎈 简介:CSDN博客专家🏆,华为云享专家🏆,Linux、C/C、云计算、物联网、面试、刷题、算法尽管咨询我,关注我,有问题私聊! &…

唯一索引和普通索引应该如何选择?

唯一索引和普通索引应该如何选择 唯一索引:唯一索引和主键索引一样不能重复。唯一索引可作为数据的一个合法检验手段。普通索引:在创建普通索引时,没有任何的限制条件,比如非空或者唯一,可以在任意字段上建立普通索引…

表数据结构变动、修复表数据的历史版本兼容解决方案

​ 平时我们做业务需求的时候,难免会碰到有些非常大的改动,大到要修改表结构或者数据结构才能满足,这时候如何能同时兼容老版本的业务与新版本的业务就是一个首要解决问题 1.将老版本数据格式升级到新版本 这是一个很容易想到的解决方案&…

Vue3聊天气泡简单实现思路

Vue3聊天气泡简单实现 实现聊天气泡主要有两个注意点: ①是根据字体数量自适应框的长度 ②字体到框有边距,也就是为了美观 这篇博客主要讲实现的思路,不讲聊天气泡的三角突出点,如下所示: 三角突出点通过简单的bord…

QuEra将研发可重构中性原子量子计算机

(图片来源:网络) 上个月,借助Amazon Braket,QuEra Computing开始提供对其中性原子量子系统Aquila的访问, Aquila具有256个量子比特。如今,量子公司的数量与日俱增,QuEra是其中之一,它…