声加科技基于 Arm MCU 的语音拾取与增强技术

2022-05-10 2543 发布：声加科技

背景

人们已愈发习惯使用真无线立体声 (TWS) 耳机接打电话。无线耳塞不仅佩戴轻便，还可让用户在解放双手的同时进行其他活动。此外，在参加远程会议时开启主动降噪 (ANC) 功能也逐渐成为一个普遍现象。

目前的耳机麦克风通常呈一定角度置于嘴部后方，而人们在说话时，声波会向前方辐射，因此耳机麦克风的拾音效果往往不如手机麦克风理想 (手机麦克风可以靠近嘴部放置)。另外，由于耳机的电池容量和处理器性能有限，在使用TWS耳机通话时，用户也很难获得和手机麦克风一样的通话质量。

人工智能方法与麦克风阵列相结合

为补偿语音信号 (尤其是高频分量、提供清晰音质等) 向前辐射引起的振幅衰减，常采用双麦克风阵列形成空间定向波束，以增强特定方向的增益，同时消除其他方向的干扰噪声。

考虑到用户不同的佩戴角度，波束成形是一个自适应估计过程。这也就意味着如果周围环境嘈杂，估计误差就会增大。故而为了避免消除用户声音的情况，只能保留来自近似方向的残留动态噪声。

机器学习算法的出现则打破了这一限制。深度神经网络具有较强的非线性建模能力以及对动态噪声干扰的良好识别性能，区别于传统的利用统计信号分析来区分噪声和语音的方法。然而，受限于计算平台的资源，神经网络模型本身的鲁棒性以及泛化能力在网络剪枝和量化后也会有所降低，可能不足以覆盖所有的使用场景。

将自适应波束成形和机器学习方法相结合，可以提升降噪性能，从而使解决方案能够在嘈杂环境中更好地进行自适应调整。同时，波束成形能够在空间上滤除周围环境中的干扰噪声，从而提高神经网络输入信号的信噪比 (SNR)。因此，资源有限的模型也可以稳定地运作。

请看下图的对比：

图1：基于空间滤波和频谱估计的传统双麦克风阵列波束成形语音增强

图2：人工智能增强的双麦克风解决方案

可以看出，图2与图1有显著差异。借助深度学习算法，我们可以更准确地区别语音成分和噪声成分，并补充高频谐波，从而使语音更加饱满清晰。

在边缘部署人工智能语音增强技术的挑战