首页 > 要闻 > 正文

跟咳嗽声 say no,声网 AI 降噪出手了

2023-01-17 14:48:17 来源: 阅读:1
评论(0 收藏(0

“我还好,就是有点咳嗽,咳咳咳咳咳”。近期,不停地咳嗽成为了很多网友普遍遭遇的困扰,不仅会影响身体的状态,在线上会议、语聊、K 歌等场景中,不间断地发出咳嗽声也会影响用户线上互动交流的体验。

声网观察到,近段时间,不少语聊、直播、K 歌等 APP 中也都广泛存在上述痛点,十分影响主播与用户的体验。对此,声网的音频算法团队快速响应了这一需求,对声网 AI 降噪进行了升级,可有效消除相关咳嗽声,更好地保障线上互动场景中主播与用户的互动交流体验。

例如,对于在线办公场景,声网 AI 降噪可以净化线上会议场景的开会氛围,不影响线上沟通质量。对于线上娱乐、直播、在线K歌等场景,咳嗽噪音消除可以减少主播一定的尴尬,不需要一咳嗽就选择闭麦。

我们在声网公众号的原文加入了一段音频,您可以找到这篇文章通过文中的音频更直观的体验声网 AI 降噪带来的咳嗽声消除的能力,我们将依次展示在线会议与在线K歌两个场景中消除咳嗽声后的对比效果。如果您想试听更多场景的降噪语料,可点击公众号原文底部的阅读原文联系我们。

除了咳嗽声的消除外,声网 AI 降噪针对各类业务场景的特殊噪声均做了针对性优化,具有较强的场景覆盖能力,例如能够出色地抑制会议场景的啸叫等噪声、户外直播场景的风噪和地铁噪声、游戏场景的游戏音效以及手指敲击屏幕和手指摩擦麦克风等噪声、娱乐场景的喷麦噪声且能够完美保护主播的清唱歌声。

以啸叫抑制为例,声网 AI 降噪可有效的解决同地多设备啸叫的问题。如下图所示,在视频会议场景中,当没有开启 AI 降噪时,同时打开多台麦克风和扬声器便会引起啸叫,这会极大影响参会者的参会体验。开启声网 AI 降噪后,全场所有人均可以打开麦克风和扬声器,而不会出现啸叫的情况。

降噪性能提升:改善语音损伤及丢字现象 对长时间纯噪声的抑制效果更出色

经过声网音频算法团队的持续钻研,新版的声网 AI 降噪的性能也实现了显著的提升,主要表现为语音损伤及丢字现象显著降低、抑制谐波间底噪防止噪声起伏、对长时间纯噪声的抑制效果更出色、对清唱歌声的损伤明显减少。

其中抑制谐波间底噪防止噪声起伏主要是通过提升 AI 降噪模型的频率分辨率,在频域分辨出谐波和谐波之间的部分,较好地抑制谐波间的底噪,使得噪声大小在语音段和非语音段均处在同一水平。用户在整个完整的通话过程中感知不到噪声的起伏,可避免其分散注意力。

此前我们也有介绍,AI 降噪算法是基于声网自研 AI 推理引擎实现,能同时在移动端、PC 端以高精度、高性能、低功耗方式运行。自研 AI 推理引擎也在不断升级迭代,迎来了重磅升级。通过核心架构调整、核心函数工具化、内存复用等系列措施,提升了可复用性和可扩展性;通过量化策略优化,进一步提升精度,首次引入稀疏化优化方法,进一步提升推理性能。此次新版 AI 降噪算法基于升级后的声网 AI 推理引擎,在算法效果升级的同时,工程实现上的精度和推理性能也得到重大提升。

行业同类 AI 降噪横评  声网三大主观指标得分均最高

为了更清晰的了解新版声网 AI 降噪在用户端的体验评价,我们还选取了八家行业同类的AI降噪算法进行效果对比,并基于 GMOS、SMOS 和 NMOS 三大主观指标进行了第三方的用户打分。

先简单介绍下这三大指标的基础概念:GMOS侧重于主观听感的综合效果,SMOS侧重于衡量语音损伤,NMOS侧重于衡量残留噪声,三者的评分范围都是1-5分,5分最高,分数越高越好。

图:AI降噪横评 GMOS(第三方用户打分)

GMOS 是一个相对综合的主观指标,主要考量的是降噪性能和语音保护的综合指标,声网 AI 降噪在和 8 个友商的对比中取得了最高分3.9342分,也是唯一超过3.9分的。

图:AI降噪横评 SMOS(第三方用户打分)

SMOS 侧重的是降噪时对语音的保护是否够好,声网 AI 降噪在和 8 个友商的对比中取得了最高分4.104分。


图:AI降噪横评 SMOS(第三方用户打分)

NMOS 主要衡量的是对于噪声的抑制程度,也就是噪声残留的多少,声网 AI 降噪在和 8 个友商的对比中同样取得了最高分3.8439,但同时友商8的得分也达到了3.8107分,与声网较为接近。

目前声网最新版本的 AI 降噪插件已经可以与最新的声网 SDK 配合使用,如您想进一步体验或者接入声网 AI 降噪,可以在声网的公众号找到这篇文章,点击文章底部阅读原文,与我们进行联系。


推荐阅读:叶紫