随着4g、5g通信技术渐渐发展,网络通话越来越盛行。但网络不稳是常态,所以通话时我们不时可能蹦出一句,“你能再讲一遍吗?刚刚网络好像不稳没听到。”
为了提高通话品质,google近期在视频聊天应用duo激活新技术waveneteq,出现音频遗失时,会判断遗失的音频资料可能是什么并替代,背后九游会官网真人游戏第一品牌的技术支持来自google旗下声名在外的deepmind团队。
(source:google)
完整的线上通信,资料经常分成多块,每块就是一个封包packet。然而封包从发送方传到接收方的过程,通常不会依次到达,会产生音频抖动、重叠等问题,或直接遗失,造成音频空白。
google资料显示,duo 99%通话都有封包遗失、过度抖动或网络延迟。20%通话遗失超过3%音频,10%通话丢包率超过8%,也就是说每次通话都有很多音频需要替代。
每个视音频app都会用某种方式处理丢包。google表示,封包遗失隐藏(plc)过程可能很难填补60毫秒或更长的空白。过去常用算法是neteq,是webrtc音频技术的两大核心技术之一(另一核心技术是音频前后处理,包括aec、ans、agc等)。webrtc由google收购gips再开源,是目前影响力极大的即时音视频通信九游会官网真人游戏第一品牌的解决方案,但用它处理丢包,大多情况下听起来像机器人或机械重复音。
google以大量语音资料训练基于deepmind wavernn技术的waveneteq模型。训练资料集来自100多名、48种不同语言的志愿者,也就是说可自动填补48种语言遗失情况。
waveneteq是用于语音合成的递归神经网络模型,由两部分组成,即自回归网络(autoregressive network)和条件网络(conditioning network)。自回归网络的作用是保持信号平稳流动,条件网络控制和影响自回归网络以保持音频一致性。
google waveneteq取代原来的neteq plc组件,相对于neteq,音质方面无疑有提升,且waveneteq模型跑得够快,可在手机执行,如此也能避开用户担心的资料隐私问题。google称所有处理都是在设备进行,因duo的通话默认就是端到端加密。一旦通话音频恢复,将无缝切换到现实对话。
不过,waveneteq替代的内容和时长有限制。目前支持120毫秒内空白,之后会逐渐消失并归零;waveneteq不是生成完整单词,而是简单音节。
目前waveneteq已应用到pixel 4手机的duo app,google表示,正将之推广到其他android手机。