Meta 新推出的实时语音翻译模型 Seamless

news/2024/7/7 20:54:21

项目简介

SeamlessM4T 是我们基础的一体式大规模多语言和多模式机器翻译模型,可为近 100 种语言的语音和文本提供高质量翻译。

SeamlessM4T 模型支持以下任务:

  • 语音到语音翻译 (S2ST)

  • 语音到文本翻译 (S2TT)

  • 文本到语音翻译 (T2ST)

  • 文本到文本翻译 (T2TT)

  • 自动语音识别 (ASR)

我们正在发布 SemalessM4T v2,这是采用我们新颖的 UnitY2 架构的更新版本。与 SeamlessM4T v1 相比,该新模型在质量以及语音生成任务中的推理延迟方面有所改进。

要了解有关 SeamlessM4T 模型集合、每个模型所使用的方法、其语言覆盖范围及其性能的更多信息,请访问 SeamlessM4T 自述文件或模型卡

SeamlessExpressive

SeamlessExpressive 是一种语音到语音翻译模型,可捕捉韵律中某些未充分探索的方面,例如语速和停顿,同时保留语音风格和高内容翻译质量。

要了解有关 SeamlessExpressive 模型的更多信息,请访问 SeamlessExpressive 自述文件或🤗 模型卡

SeamlessStreaming 

SeamlessStreaming 是一种流式翻译模型。该模型支持语音作为输入模态和语音/文本作为输出模态。

SeamlessStreaming 模型支持以下任务:

  • 语音到语音翻译 (S2ST)

  • 语音到文本翻译 (S2TT)

  • 自动语音识别 (ASR)

要了解有关 SeamlessStreaming 模型的更多信息,请访问 SeamlessStreaming 自述文件或模型卡

安装

先决条件之一是 fairseq2,它具有仅适用于 Linux x84-86 和 Apple-silicon Mac 计算机的预构建软件包。此外,它还依赖于 libsndfile,而您的计算机上可能没有安装该文件。如果您遇到任何安装问题,请参阅其自述文件以获取进一步说明。

pip install .

转录推理音频以计算指标使用自动安装的 Whisper。Whisper 反过来需要在您的系统上安装命令行工具 ffmpeg ,大多数包管理器都可以提供该工具。

项目链接

https://github.com/facebookresearch/seamless_communication

网站/论文: https://ai.meta.com/research/seamless-communication/

HF: https://huggingface.co/collections/facebook/seamless-communication-6568d486ef451c6ba62c7724


http://lihuaxi.xjx100.cn/news/1894507.html

相关文章

关于 scrapy 中 COOKIES_ENABLED 设置

在 Scrapy 框架中,COOKIES_ENABLED True 时,除了可以在 Request 对象中手动设置 cookies 以外,还可以通过修改 DEFAULT_REQUEST_HEADERS 来全局地为每个请求设置 cookies。以下是一个包含这一信息的博客笔记: Scrapy 爬虫中 Cook…

谷歌Gemini API 应用(一):基础应用

前两天谷歌发布了旗下Gemini模型的API访问接口,今天我们来介绍一下Gemini API的基础应用,本次发布的是api访问接口对所有人免费开放,但有一些限制,比如每分钟限制60次访问,个人调用api接口所使用的数据将会被谷歌采集用…

Python脚本完成post接口测试的实例

一个post类型的接口怎么编写脚本实现 1、打开网页,在fiddler上获取到接口的URL 2、用Python的requests库实现 1 2 3 4 5 6 7 8 9 10 11 12 13 14 import requests new_url"http://10.31.143.2:8989/system/systemOrgan/list" params {"access_to…

Netty介绍

1. Netty介绍 是一个异步的、基于事件驱动的网络应用框架,用以开发高性能,高可靠性的网络io程序。Netty主要针对在TCP协议下,面向clients端的高并发应用,或者peer-to-peer场景下大量数据持续传输的应用。Netty本质上是一个NIO框架…

2023年中国算力租赁行业研究报告

第一章 行业概况 1.1 定义 算力租赁是一种新兴的服务模式,旨在为企业和研究机构提供灵活、高效的计算资源。在这个模式中,“算力”指的是对数据的计算能力,包括处理速度、数据存储和网络传输等方面的能力。“租赁”则是指通过将计算能力、存…

第22节: Vue3 可写计算

在UniApp中使用Vue3框架时&#xff0c;你可以使用可写计算属性来封装复杂的计算逻辑&#xff0c;并将结果保存到一个响应式引用对象中&#xff0c;以便在其他地方使用。 下面是一个示例&#xff0c;演示了如何在UniApp中使用Vue3框架使用可写计算&#xff1a; <template&g…

Vue2面试题:说一下路由模式hash和history的区别?

在单页面应用SPA中&#xff0c;路由描述的是URL与视图之间的映射关系&#xff0c;这种映射是单向的&#xff0c;即URL变化引起视图更新&#xff08;无需刷新页面&#xff09;。 1、hash模式 原理&#xff1a; 用 url #后面的hash值 来模拟一个完整的url&#xff0c;直接刷新…

i春秋云镜之Initial

首先拿到目标IP&#xff1a;39.99.156.72 通过Fscan进行扫描发现存在Thinkphp RCE漏洞。 ./fscan_amd64 -h 39.99.156.72然后通过利用工具进行RCE。 我们进行getshell之后通过蚁剑进行连接。 反弹shell并转换成python 交互式shell。 rm /tmp/f;mkfifo /tmp/f;cat /tmp/f|/b…