声加科技

声加科技基于 Arm MCU 的语音拾取与增强技术

背景


人们已愈发习惯使用真无线立体声 (TWS) 耳机接打电话。无线耳塞不仅佩戴轻便,还可让用户在解放双手的同时进行其他活动。此外,在参加远程会议时开启主动降噪 (ANC) 功能也逐渐成为一个普遍现象。


目前的耳机麦克风通常呈一定角度置于嘴部后方,而人们在说话时,声波会向前方辐射,因此耳机麦克风的拾音效果往往不如手机麦克风理想 (手机麦克风可以靠近嘴部放置)。另外,由于耳机的电池容量和处理器性能有限,在使用TWS耳机通话时,用户也很难获得和手机麦克风一样的通话质量。


人工智能方法与麦克风阵列相结合


为补偿语音信号 (尤其是高频分量、提供清晰音质等) 向前辐射引起的振幅衰减,常采用双麦克风阵列形成空间定向波束,以增强特定方向的增益,同时消除其他方向的干扰噪声。


考虑到用户不同的佩戴角度,波束成形是一个自适应估计过程。这也就意味着如果周围环境嘈杂,估计误差就会增大。故而为了避免消除用户声音的情况,只能保留来自近似方向的残留动态噪声。


机器学习算法的出现则打破了这一限制。深度神经网络具有较强的非线性建模能力以及对动态噪声干扰的良好识别性能,区别于传统的利用统计信号分析来区分噪声和语音的方法。然而,受限于计算平台的资源,神经网络模型本身的鲁棒性以及泛化能力在网络剪枝和量化后也会有所降低,可能不足以覆盖所有的使用场景。


将自适应波束成形和机器学习方法相结合,可以提升降噪性能,从而使解决方案能够在嘈杂环境中更好地进行自适应调整。同时,波束成形能够在空间上滤除周围环境中的干扰噪声,从而提高神经网络输入信号的信噪比 (SNR)。因此,资源有限的模型也可以稳定地运作。


请看下图的对比:


1-请看下图的对比-1.png

图1:基于空间滤波和频谱估计的传统双麦克风阵列波束成形语音增强


1-请看下图的对比.png

图2:人工智能增强的双麦克风解决方案


可以看出,图2与图1有显著差异。借助深度学习算法,我们可以更准确地区别语音成分和噪声成分,并补充高频谐波,从而使语音更加饱满清晰。


在边缘部署人工智能语音增强技术的挑战


耳机制造商对应用机器学习算法进行语音增强有很强的需求。然而,若要在小巧的TWS耳机上实现人工智能语音增强,需克服以下几大挑战。


首先,人工智能算法需要十分复杂的计算,且往往涉及大量矩阵乘法运算。在架构设计阶段,需要考虑如何最大限度地提高支持的运算符的效率。

其次,在对模型进行量化和剪枝的同时,应尽量地保持算法的降噪性能和语音质量,使神经网络模型适配有限的RAM内存。

再者,成本高昂。一些产品使用专用的数字信号处理器 (DSP) 芯片进行人工智能语音增强处理。这种配置可以确保有足够的性能来实时处理用户语音。但添加额外的处理芯片不仅提高了成本,并且会占用耳机上宝贵的空间。此外,采用独立的DSP会增加系统的复杂性,进而推高开发投入。

第四,在蓝牙SoC上部署实时的人工智能语音增强解决方案比离线运行此流程更为复杂。系统集成需要算法供应商和芯片制造商的高度投入和密切合作。

最后,TWS耳机等终端设备的电源管理非常严格。增加或增强任何功能都需要满足功耗要求,并且不能明显影响电池续航时间。


解决方案:Arm携手声加科技在边缘实现人工智能语音增强


声加科技与Arm通力合作,致力于优化声加科技的人工智能语音增强算法 (SVE-AI),使其在Arm的Cortex-M4F和Cortex-M33 MCU上成功部署,实现了低功耗和高性能的平衡。


2-实现了低功耗和高性能的平衡-1.png
2-实现了低功耗和高性能的平衡.png

图3:Arm Cortex-M33和Arm Cortex-M4


声加科技利用Arm提供的指令集,并将其与算法特征整合,从而在IP级别上提供了完整的兼容性。即使硬件发生变化,只要使用Arm IP及指令集,便可快速部署声加科技提供的SVE-AI解决方案。极大地节省了总体开发时间和精力,从而加速产品上市。


3-从而加速产品上市.png

图4:SVE-AI双麦克风解决方案框图


如图4所示,将深度神经网络 (DNN) 模块嵌入到前端解决方案中,使其在处理流程中具有重要作用,提高了各个算法模块的性能,部分优点如下:


  • DNN模块提供更准确的声波到达方向估计性能,进而指引波束成形。

  • DNN模块将波束成形和风噪声估计的处理结果作为输入,从中分离出清晰的语音成分和方向信息。

  • DNN模块还可以灵活调整后置滤波所需实现的降噪量。


在此次合作中,我们首先确保所有计算都在MCU上进行,以保持系统的精简性。其次,在MCU上实时运行人工智能语音增强模型。这一步包括:模型构建和调整、推理优化、数据压缩 (int8) 和数据流管理。最后,声加科技通过修正MCU上的算法流程和处理流程,充分利用不同配置的芯片所提供的资源,提供了一系列不同参数大小的语音增强模型。


SVE-AI解决方案已被主流移动设备品牌厂商和国际音响品牌的TWS耳机产品所采用,包括配备单麦克风到四个麦克风的TWS耳机。人工智能语音增强模型有效提升了TWS耳机在动态干扰环境下的语音质量,在客观测试中取得优异的S-MOS分数,并在主观测试中收到积极反馈。因此,借助Arm MCU,TWS耳机能够以16KHz的采样率实时进行动态噪声抑制和高质量的语音增强。


展望未来


声加科技致力于不断创新和提升性能,以扩大其在可穿戴设备语音增强解决方案方面的领先优势。随着Arm推出具有较强AI计算能力的Cortex-M处理器Cortex-M55和新型机器学习处理器Ethos-U55 microNPU,声加科技始终与Arm协力合作,积极探索在边缘实现更大规模的神经网络模型可以带来的优势和性能提升。


我们希望Arm和声加科技之间的合作将有助于定义可穿戴设备、无线耳机和移动SoC的芯片组规格。


(全文转载自Arm社区)


2022-05-10 11:18:11  •  浏览 (316)