​Distil-Whisper:比Whisper快6倍,体积小50%的语音识别模型

news/2024/7/2 8:49:15

内容来源:@xiaohuggg

Distil-Whisper:比Whisper快6倍,体积小50%的语音识别模型

​该模型是由Hugging Face团队开发,它在Whisper核心功能的基础上进行了优化和简化,体积缩小了50%。速度提高了6倍。并且在分布外评估集上的字错误率 (WER) 不超过 1%。
它还可以作为 Whisper 的助手模型用于推测性解码,速度提高了2倍。
主要优点:
速度 - Distil-Whisper 的推理速度是 Whisper 的 6 倍。
尺寸 - 模型大小减少了 49%,更适合资源有限的设备。
准确性 - 词错误率(WER)与 Whisper 相比只有 1% 的差距。
抗噪声 - 在嘈杂环境下仍能保持较高的识别准确性。
减少幻听 - 减少了重复词组的出现,并降低了插入错误率。
推测性解码 - 作为 Whisper 的辅助模型,推理速度提高了 2 倍。

主要方法:

Whisper模型是一个基于大规模弱监督数据训练的语音识别模型,具有1.5亿参数,并在680,000小时的语音识别数据上进行预训练,展现出在多个数据集和领域的强大泛化能力。然而,随着预训练语音识别模型大小的增加,将这些大型模型部署到低延迟或资源受限的环境中变得越来越困难。
为了解决这个问题,研究者们采用了伪标签方法来构建一个大规模的开源数据集(在 9 个不同的开源数据集上接受了 22,000 个小时的训练,涵盖 10 个域、超过 18,000 个说话者),并使用这个数据集来进行知识蒸馏,从而创建了Distil-Whisper模型。
研究者们使用了一个基于词错误率(WER)的启发式方法来筛选高质量的伪标签,以用于训练Distil-Whisper模型。
实验结果:

Distil-Whisper模型在保持原有 Whisper 模型核心功能的基础上,显著提高了处理速度。速度提高了5.8倍,参数减少了51%,并且在零样本迁移设置中对分布外测试数据的WER性能仅下降了1%。
这一速度的提升不仅意味着在相同的时间内可以处理更多的语音数据,而且对于那些需要快速响应的应用场景,如实时语音翻译、实时会议记录等,具有重要的实际意义。
在长音频评估中,Distil-Whisper的表现甚至超过了原始的Whisper模型,这主要是因为它在处理长形音频时产生幻听错误的倾向较低。
此外,Distil-Whisper与Whisper模型共享相同的编码器权重,这意味着它可以作为Whisper的辅助模型,用于推测性解码,从而实现了2倍的推理速度提升,同时确保预测结果与原始模型相同。这使得Distil-Whisper可以作为现有使用Whisper的语音识别管道的即插即用替代品。
由于模型更小,对计算资源的需求也相对较低,这使得它更适合在资源受限的设备上运行,例如在移动设备或边缘计算设备上。这种轻量级的设计也使得 Distil-Whisper 在网络带宽有限或计算能力受限的环境中更为实用。
模型下载:

https:https://huggingface.co/collections/distil-whisper/distil-whisper-models-65411987e6727569748d2eb6

论文:

https://arxiv.org/abs/2311.00430
GitHub:https://github.com/huggingface/distil-whisper

Colab:httphttps://colab.research.google.com/github/sanchit-gandhi/notebooks/blob/main/Distil_Whisper_Benchmark.ipynbain/Distil_Whisper_Benchmark.ipynb

在这里插入图片描述


http://lihuaxi.xjx100.cn/news/1788292.html

相关文章

2024郑州光伏展|郑州储能展|郑州国际太阳能光伏储能展览会

2024第四届中国(郑州)太阳能光伏及储能产业展览会 时间:2024年4月8-10日 地点:郑州.中原国际博览中心 随着人们对环境保护意识的不断提高,太阳能光伏和储能技术在能源领域的应用越来越广泛。为了更好地推广和应用太…

「Verilog学习笔记」用优先编码器①实现键盘编码电路

专栏前言 本专栏的内容主要是记录本人学习Verilog过程中的一些知识点,刷题网站用的是牛客网 分析 用此编码器实现键盘的编码电路。 注意:编码器的输出是低电平有效,而键盘编码电路输出的是正常的8421BCD码,是高电平有效。因此将编…

STM32 I2C详解

STM32 I2C详解 I2C简介 I2C(Inter IC Bus)是由Philips公司开发的一种通用数据总线 两根通信线: SCL(Serial Clock)串行时钟线,使用同步的时序,降低对硬件的依赖,同时同步的时序稳定…

非对称加密

所以,我们非常需要这样一种电子支付系统,它基于密码学原理而不基于信用,使得任何达成一致的双方,能够直接进行支付,从而不需要第三方中介的参与。 《比特币白皮书》 bitcoin是一种加密货币,密码学在系统中…

振南技术干货集:深入浅出的Bootloader(2)

注解目录 1、烧录方式的更新迭代 1.1 古老的烧录方式 (怀旧一下,单片机高压烧录器。) 1.2 ISP 与ICP 烧录方式 (还记得当年我们玩过的 AT89S51?) 1.3 更方便的 ISP 烧录方式 1.3.1串口 ISP (是 STC 单片机成就了我们,还是我们成就了…

P6入门:项目初始化6-项目详情之资金Funding

前言 使用项目详细信息查看和编辑有关所选项目的详细信息,在项目创建完成后,初始化项目是一项非常重要的工作,涉及需要设置的内容包括项目名,ID,责任人,日历,预算,资金,分类码等等&…

ProEasy机器人:运动+通讯相关说明

----------------机械手运动------- --常用指令:MovP弧线运动、MovL直线运动 MovP(1) --弧线轨迹运动到一号点 MovP(2) --弧线轨迹运动到二号点 MovL(1) --直线轨迹运动到一号点 MovL(2) --直线轨迹运…

CCF 备忘

一、不错的网站 CCF CCSP 竞赛历年资料 官网 http://118.190.20.162/home.page 二、基础套路 循环输入 数组标记法&#xff08;数组下标-数值 的映射&#xff09; 两个矩阵相乘 map<long long, map<long long, long long> > ans; for(int i1;i<d;i){for(int…