从嘈杂视频中提取超清人声,语音增强模型PHASEN已加入微软视频服务丨AAAI 2020...

news/2024/7/7 21:17:35
640?wx_fmt=jpeg

作者 | 罗翀、银大成
来源 | 微软研究院AI头条 (ID: MSRAsia)

编者按:在刚刚落幕的 Ignite 大会上,微软展示了企业视频服务 Microsoft Stream 中的一项新功能——无论你在多么嘈杂的地方录制视频,Microsoft Stream 都能自动过滤背景噪音,让主要语音超清晰地呈现出来。这一技术由微软亚洲研究院与 Microsoft Stream 团队共同研发,研究团队提出了关注相位和谐波的语音增强模型 PHASEN,通过双流结构让降噪效果大幅超过此前方法。该论文已被 AAAI 2020 接收。

Microsoft Stream 语音增强功能演示 

摘要

我们提出了关注相位和谐波的语音增强模型 PHASEN (Phase-and-Harmonics-Aware Speech Enhancement Network),主要的贡献在于两点:

1. 考虑到相位预测对于语音增强的重要性,我们提出了双流模型结构,分别处理相位和强度信息,并设计了双向信息交互通道。实验证实双流之间的信息交互对相位估计至关重要。

2. 我们提出了频域变换模块 FTB (Frequency Transformation Block),用于在深度神经网络结构中高效整合全局频域相关性,尤其是谐波相关性。通过对于 FTB 参数的可视化,我们可以发现 FTB 自发地学到了谐波相关性。

以上两点使得我们的模型能够同时意识到相位信息以及谐波相关性,从而在 AVSpeech+Audioset 数据集上获得 1.76dB 的 SDR 提升,超过了其他模型在该数据集上的表现,并且在 Voice Bank + DEMAND 数据集中,四个指标均大幅超过之前的方法,一个指标与之前方法持平。

下文中我们将详细介绍问题提出的背景、实现细节以及实验结果。
研究背景

用单通道的语音增强模型去除带噪语音中的噪声,其主流的方法有两种,分别在时域上处理和在时-频域上处理。前者直接用1维的语音波形作为输入输出,而后者以2维的时-频表征,如 STFT 谱,作为模型的输入输出。在第二种方法中,时-频掩膜(T-F Masking)被广泛使用,即预测一个乘性的时-频掩膜,与输入的时-频表征相乘,得到预测的时-频表征。STFT 谱是一个复数谱,包含相位和强度两方面信息。早期的时-频掩膜方法仅仅关注强度信息,如 Ideal Binary Mask(IBM),Ideal Ratio Mask(IRM)等。近年来,人们认识到相位预测的重要性,通过扩展掩膜的值域,提出了一些关注相位信息的掩膜方法,如 Phase Sensitive Mask(PSM)将掩膜扩展至实数域,complex Ideal Ratio Mask(cIRM)将掩膜扩展至复数域。

从掩膜的潜力来讲,理想的 cIRM 已经可以完全去除相位噪声,然而模型预测出的 cIRM 却并非如此。当我们在大数据集(AVSpeech)上训练基于 DNN 的 cIRM 预测模型时,发现预测的 cIRM 的虚部几乎为0,即相位信息没有被恢复。这说明 cIRM 的潜力没有被现有的 DNN 模型充分利用。为此,我们设计了一种新的网络结构——双流结构,来提升相位的预测质量。

双流结构

双流结构由强度流以及相位流构成。其中,强度流主要由卷积操作,频域变换模块(FTB,后文介绍)以及双向 LSTM 组成,而相位流为纯卷积网络。强度流的预测结果为幅值掩膜 M,其取值为正的实数,相位流的预测结果是相位谱 ψ,其取值为复数,由实部和虚部组成。记输入的时频表征为 S^in,则输出 S^out=abs(S^in )∘M∘ψ,其中 ∘代表逐项相乘操作。为了充分利用双流的信息,我们采用 gating 的方式在强度流和相位流之间增加了信息交互机制,从而让强度或者相位处理过程中能利用另外一路的信息作为参考。增加了信息交互后,我们把网络的主体划分为3个 Two Stream Block(TSB)。每一个 TSB 的结构相同,在 TSB 的最后,均有一步信息交互操作。在后文中,我们的实验表明,双向的信息交互对相位预测至关重要。

640?wx_fmt=png
图1:双流结构

在设计强度流的过程中,我们发现图像处理中常用的小尺寸二维卷积操作无法处理语音信号中的谐波相关性。不同于自然图像,语音信号在转化为时-频表征时的相关性不仅有邻域成分,而且有谐波成分,而这些谐波相关性是一种分布在频域上的全局相关性,例如:频率 f_0 倾向于和 2f_0,1/2 f_0,3f_0,3/2 f_0,1/3 f_0,2/3 f_0… 这些谐波相关的频率同时发生,这些频率分布在整个频率轴上。之前的工作中使用的 U-net,空洞卷积等卷积结构都适用于处理邻域相关性,但是无法高效地感受到这种全局频域相关性。为此,我们提出了频域变换模块(Frequency Transformation Block, FTB)来处理包括谐波在内的全局频域相关性。

FTB 的结构如图2所示,简单来说,它利用注意力(attention)机制来挖掘非邻域(non-local)相关性。在我们的整体架构中,每一个TSB中强度流的输入和输出端各有一个 FTB,确保每一个 TSB 中处理的信息以及双流交互的信息都能关注到谐波相关性。

640?wx_fmt=png
图2:FTB 结构

网络训练的损失函数 L 由两部分组成:强度损失 L_a 以及关注相位的损失 L_p,如下所示,其中强度损失为预测强度谱和真实强度谱,分别按照 A^0.3 压缩后的 MSE loss。关注相位的损失为预测频谱和真实频谱,分别按照 A^0.3 压缩后的 MSE loss。

640?wx_fmt=png


我们在最近 Google 提出的大数据集 AVSpeech + Audioset 和被广泛使用的 Voice Bank + DEMAND 两个数据集上进行实验,总共用6种评价指标(SDR、PESQ、CSIG、CBAK、COVL、SSNR)进行评测,实验结果如下:

表1为我们在 AVSpeech + Audioset 数据集上进行的消融实验,通过对比 PHASEN-1strm 和 PHASEN,发现如果去掉相位流,则会造成 SDR 的下降,尤其是 PESQ 的大幅下降。为了验证双流结构中信息交互的作用,我们尝试去掉双向信息交互或者去掉相位流到强度流的信息传递,分别得到 PHASEN-w/o-A2PP2A 和 PHASEN-w/o-P2A 两组实验结果。对比可知,强度流到相位流的信息传递更加重要。

640?wx_fmt=png
表1:AVSpeech + Audioset数据集上的消融实验结果

图3中对相位预测的可视化结果也表明,当没有双向的信息交互时,预测的相位与含噪声的相位差值几乎为0,而我们完整的模型可以在噪声比较强的区域对相位进行明显的修正。此外,在表1中,通过对比 PHASEN-w/o-FTBs 和 PHASEN,可以发现如果将 FTB 换成普通卷积模块,也会造成 SDR 和 PESQ 的明显下降。这说明 FTB 模块的重要性。

640?wx_fmt=png
图3:对相位预测的可视化结果

为了验证 FTB 真的学到了全局的频域相关性,我们将 FTB 中 Freq-FC 的权值可视化,如图4。其中,左侧两幅图分别为考虑5次谐波和9次谐波情况下的理想谐波相关性;最右侧为学习到的 Freq-FC 权值,可以发现学习到的 Freq-FC 权值与考虑高次谐波的理想相关性相近。这说明网络自发学到了谐波相关性。通过上述消融实验,我们验证了我们提出的双流结构和频域变换模块的有效性。

640?wx_fmt=png
图4:将 FTB 中 Freq-FC 的权值可视化结果

表2和表3分别在两个数据集上对比 PHASEN 与其他最近提出的方法的性能。可以看出,我们在大数据集,如 AVSpeech +Audioset 上的表现超过了 Google 以及 Conv-TasNet,证明了我们的网络有能力胜任真实复杂环境下的情形。在比较常用的小数据集,如 Voice Bank + DEMAND 上,我们的模型在5个指标上均大幅超过近期的时域方法(SEGAN、Wavenet、DFL)以及时-频域方法(MMSE-GAN)。此外,我们还在4个指标上超过了混合模型(MDPhD),并且在 SSNR 指标上仅有微小差距。以上横向对比进一步验证了我们模型的有效性。

640?wx_fmt=png
表2&3:两个数据集上 PHASEN 与其他方法的性能对比

结语

综上,我们在单通道语音增强任务中提出了含有双向信息交互的双流结构,用于高效的相位预测。同时,也提出了用于捕捉全局频域相关性的频域变换模块(FTB)。详细的消融实验验证了我们提出的方法的有效性,并且在两个数据集上,我们的模型均超过了当前最优的模型。虽然我们当前的模型不能做到低延迟,但是接下来的工作将会在延迟问题上进行优化,并降低模型参数量,以便应用到实时通信等领域。此外,将来的工作也包括把我们的模型拓展应用在其他相关任务上,如语音分离等。

论文链接:
https://arxiv.org/abs/1911.04697

(*本文为AI科技大本营转载文章,转载系原作者)


精彩推荐



2019 中国大数据技术大会(BDTC)再度来袭!豪华主席阵容及百位技术专家齐聚,15 场精选专题技术和行业论坛,超强干货+技术剖析+行业实践立体解读,深入解析热门技术在行业中的实践落地。6.6 折票限时特惠(立减1400元),学生票仅 599 元!

640?wx_fmt=png


推荐阅读


http://lihuaxi.xjx100.cn/news/276788.html

相关文章

最新版火车头织梦内容发布规则_火车头采集器V8.6发布dedecms自定义字段解决方案...

在使用火车头进行dede采集发布的时候,很多人会遇到如果自己增加了自定义字段该如何采集呢,之前本人也遇到了这种问题,搜索了很多百度文章最后完美解决的自定义字段如何发布成功的问题。1.首先打开你要使用对应版本的火车头发布模版编辑器&…

关于 CPU 的一些基本知识总结

点击上方“方志朋”,选择“设为星标”回复”666“获取新整理的面试资料作者:骏马金龙www.cnblogs.com/f-ck-need-u/p/11141636.htm关于CPU和程序的执行CPU是计算机的大脑。1、程序的运行过程,实际上是程序涉及到的、未涉及到的一大堆的指令的…

sql server 中将由逗号“,”分割的一个字符串,转换为一个表,并应用与 in 条件...

select * from tablenmae where id in(1,2,3) 这样的语句和常用,但是如果in 后面的 1,2,3是变量怎么办呢,一般会用字符串连接的方式构造sql语句 string aa"1,2,3";string sqltxt"select * from tablename where id…

解析激光雷达中时序融合的研究现状和发展方向

本文转自:计算机视觉联盟在自动驾驶领域,基于激光雷达 (LiDAR) 的3D物体检测和运动行为预测是一种普遍的方案。目前绝大部分关于激光雷达的物体检测算法都是基于单帧的。激光雷达的多帧时序数据,提供了对于检测物体的多视角观测 (multiple vi…

女帝

日本的夜生活很感兴趣,因为日本居然有堂堂正正的牛郎店。在里面长得超帅的牛郎陪客人喝酒、聊天,让客人忘记白天工作的辛苦。所以千万不要认为牛郎是从事色情服务的,虽然也有败类,但那是违反行业准则的……也就是,好的…

计算机转进制怎么看平方,计算机数制转换

一、数制的引入数制就是计数的方法,指用一组固定的符号和统一的规则来表示数值的方法。在日常生活中,人们主要使用十进制(0-9),但在某些时候也使用其它进制,如十二进制(如1年有12个月、1打物品有12件),六十进制(如1小时…

markdown 图片居中_Markdown更改字体、颜色、大小,插入表格等方法

Markdown 通过简单标记语法,使普通文本内容具有一定格式。但它本身不支持修改字体、字号与颜色等功能的。一、更改字体大小、颜色、更改字体Markdown语法效果如下:二、更改字体大小、颜色、更改字体由于 style 标签和标签的 style 属性不被支持&#xff…

今日头条李磊等最新论文:用于文本生成的核化贝叶斯Softmax

译者 | Raku 出品 | AI科技大本营(ID:rgznai100)摘要用于文本生成的神经模型需要在解码阶段具有适当词嵌入的softmax层,大多数现有方法采用每个单词单点嵌入的方式,但是一个单词可能具有多种意义,在不同的背景下&#…