微信自研NLP大规模语言模型WeLM:零/少样本即可完成多种NLP任务

news/2024/7/5 3:31:13

519088b561b5702114696b84fc92f7f6.gif

近日,微信AI推出自研NLP大规模语言模型WeLM ,该模型是一个尺寸合理的中文模型,能够在零样本以及少样本的情境下完成包多语言任务在内的多种NLP任务。

同时,微信AI团队也提供了WeLM的体验网页和API接口,感兴趣的用户可前往https://welm.weixin.qq.com/docs/体验和申请API接口,相关技术论文《WeLM: A Well-Read Pre-trained Language Model for Chinese》也已经发布于论文预印本网站arXiv。

2866844ce2a3822d38178a1f3b796d46.png

NLP大模型迎新选手,WeLM提供交互式网页PlayGround和API接口

在近几年自然语言处理(NLP)领域的发展浪潮中,OpenAI开发的自然语言处理模型GPT-3无疑风头无两,发布之初便以1750亿参数规模的预训练模型所表现出来的零样本与小样本学习能力刷新了人们的认知,也引爆了AI大模型研究的热潮。

对业界来说,预训练大模型降低了AI应用的门槛,距离“AI把人类从重复性劳动中解放出来”的宏伟目标越来越近,目前,基于GPT-3,全球开发者已经探索出包括编程、回复邮件、UI设计、回答数学问题、法律语言转化、总结中心思想、推理、文本处理等广泛应用场景,并且,各国研究者在多语言/多任务等角度的探索也正在谱写大模型百家争鸣的新篇章。

而在国内以中文为核心的大规模语言模型领域,微信AI推出的百亿级别大规模语言模型WeLM,便是大模型百家争鸣中的新选手。

据介绍,WeLM是一个百亿级别的中文模型,能够在零样本以及少样本的情境下完成包括对话-采访、阅读理解、翻译、改写、续写、多语言阅读理解在内的多种NLP任务,并具备记忆能力、自我纠正和检查能力。并且,WeLM具有尺寸合理的优势,在14项中文NLP任务上,WeLM的整体表现超出了所有同大小的模型,甚至能够匹配比它大25倍的模型。

以被普遍认为是更困难的NLP任务的文本风格转换(改写)为例,尽管用户给出的5个例子和最后需要生成的例子并没有重合的风格转换类型,但WeLM拥有出色的举一反三能力,通过学习少量的文本转换例子即可达到对任意类型的文本转换。并且,WeLM在对话-采访、阅读理解、翻译、续写等多个中文文本生成任务中有着同样优异的表现。

bcf61eb3224ce7549dc8f4a2ced50681.jpeg

除了具备强大的中文理解和生成能力,WeLM还拥有处理跨多语言(中英日)任务的能力。以“微信 AI 推出の WeLM 是一个 language model that いろいろなtaskをperformができる”这句混合中日英三国语言的文本为例,WeLM的翻译相较Google翻译更为精准。

060d7f2102a076ad9364900a21d63e8d.png

而且,在进一步微调后,WeLM可以拥有更好的零样本学习能力,可以根据场景拥有更好的表现。目前,WeLM已经部署应用于微信视频号的部分场景中,未来在进一步优化后还将应用于更多微信应用场景。

同时,为进一步推动WeLM成为真正能落地且实用的工具,微信AI团队还发布了一个供用户体验的交互式网页PlayGround,并开放了用于访问WeLM的API接口。

88be580a49a12f93976f5df89a45fa6f.png

目前,用户可通过https://welm.weixin.qq.com/docs/体验WeLM的相关能力,并通过调整配置以实现更贴近的文本生成效果。对于想接入WeLM的开发者,也可通过https://welm.weixin.qq.com/docs/api/填写问卷后获得WeLM的API Token并调用相应接口,将WeLM部署在自己的应用上。

dc209b9b45a0b327fc1d26118b8f45ec.png

具有极强知识储备,WeLM在14项中文NLP任务中表现亮眼

据介绍,在纯Encoder(Bert)、纯Decoder(GPT) 以及Encoder-Decode(T5) 结构等主流NLP模型路径的选择上,WeLM和GPT3、Google PaLM一样,选择了自回归模型的路线。同时,考虑到不同的用户对于模型效果和推理延迟会有考量或者取舍(trade-off),微信AI的WeLM训练了1.3B、2.7B以及10B三个版本的模型,满足不同用户的调用需求。

同时,在训练数据上,微信AI团队希望构建一个足够丰富、足够干净、足够公平的数据集,为此研究团队从Common Crawl下载了近两年的中文网页数据,和大量的书籍、新闻。为了增强专业能力,微信AI团队还在数据集补充了知识密集的论坛数据和一些学术论文,搜集完成后的全量数据10TB,其中包含了750G的英文数据,并保留了部分日韩文。

随后,通过规则过滤和额外训练的二分类fasttext模型,以及对测评相关数据的去除,数据集最终处理完的数据量为262B tokens。为了更好的平衡各个数据源的比重,微信AI团队也对数据进行不同比重的采样,最终,整体数据集的Topic分布相比 Common Crawl更加平滑。

519687a7df97fbf212371b329458d4da.png

在与业界同级别的CPM、华为Pangu和百度Ernie3.0的对比测试中,WeLM表现出极强的知识储备,在14项中文NLP任务上,WeLM 的整体表现超出了所有同大小的模型,甚至能够匹配比它大25倍的模型。同时,在强大的中文理解和生成能力外,WeLM还有出色的多语言理解能力,用户的输入可以在中日英上丝滑切换。

0a06aabaed4ab6c4f41071ccdb25d68b.png

目前,WeLM的相关技术论文《WeLM: A Well-Read Pre-trained Language Model for Chinese》已经发布于论文预印本网站arXiv,感兴趣的用户可前往https://arxiv.org/abs/2209.10372查看更多技术细节。

在NLP领域,让大模型成为真正能落地且实用的工具,是每一位NLP领域的研究者矢志不渝的方向。未来,微信AI也将针对WeLM进行进一步的微调优化,进一步提升其在新任务上的泛化效果,也欢迎更多开发者、用户前来体验WeLM并提出宝贵意见和建议,帮助该模型早日成为真正能落地且实用的工具,共同探索人工智能的发展之路。

— 推荐阅读 —

☞一文 Get 汽车知识的语义网络及图谱构建☞15年后再次对话Python之父:人类大脑才是软件开发效率的天花板
☞Python、C、Java 和 C++ 四足鼎立,其他已无胜算?| TIOBE 10 月编程语言排行榜

http://lihuaxi.xjx100.cn/news/252659.html

相关文章

[转帖]什么是光纤的波长?看看有哪些是你不知道的!

什么是光纤的波长?看看有哪些是你不知道的! FShttps://www.feisu.com/bbs/e-1640.html2017-07-01 00:00:001084我们平时最熟悉的光当然是我们肉眼所能看见的光。我们的眼睛对波长在400nm的紫光到700nm的红光很敏 感。但对于携带玻璃纤维的光纤&#xff0…

【MATLAB】矩阵分析之向量和矩阵的范数运算

本片借鉴于 https://blog.csdn.net/u013534498/article/details/52674008 https://blog.csdn.net/left_la/article/details/9159949 向量范数当p1时,即为各个向量的元素绝对值之和 >> norm(x,1)ans 21>> xx 1 2 3 4 5 6>> no…

SQL Server 2008中的Pivot和UnPivot

SQL Server 2008中SQL应用系列--目录索引 今天给新成员讲解PIVOT 和 UNPIVOT示例,顺便整理了一下其用法。这是自SQL Server 2005起提供的新功能。 官方示例:http://msdn.microsoft.com/zh-cn/library/ms177410%28vsql.105%29.aspx 首先看PIVOT示例&#…

C语言存储类关键字

1、static这个关键字有三种用法:(1)第一种是用来修饰局部变量,使之成为静态局部变量;静态局部变量存储在数据段/bss段中,作用域是代码块作用域,生命周期是程序生命周期,链接属性是无…

BZOJ 1096: [ZJOI2007]仓库建设

传送门 斜率优化DP入门题 显然如果在一个位置 i 建一个仓库,且上一个仓库位置为 j 那么从 j1到 i 的物品显然都要存在 i 仓库是最优的 设 $f [ i ]$ 表示在第 i 个工厂建设仓库时,工厂 1 到 i 的物品都转移好的最小花费 考虑上一个仓库的位置 j 设工厂 i…

成为探路者,成就探路者!亚马逊云科技中国峰会精彩回顾

点击上方入口立即【自由构建 探索无限】一起共赴年度科技盛宴!点击阅读原文进入官方小程序观看主题演讲精彩回放前沿技术,大咖云集更多精彩不容错过

【组队学习】【28期】数据采集从入门到精通

数据采集从入门到精通 论坛版块: http://datawhale.club/c/team-learning/38-category/38 开源内容: https://github.com/datawhalechina/team-learning-program/tree/master/CollectData 学习目标 随着数字化的不断推进,数据采集在数据…

【MATLAB】矩阵运算之矩阵分解

矩阵分解:把一个矩阵分解成为矩阵连乘的形式。矩阵的分解函数cholCholesky分解cholinc稀疏矩阵的不完全Cholesky分解lu矩阵LU分解luinc稀疏矩阵的不完全LU分解qr正交三角分解svd奇异值分解gsvd一般奇异值分解schur舒尔分解 在MATLAB中线性方程组的求解主要基于四种基…