SVE语音增强方案-声加科技

耳机计算音频Hearable

近几年，计算音频技术不断迭代创新。

一方面，以TWS耳机为代表的可穿戴音频设备使用场景越发多样。除了通话之外，远程办公、直播、音视频内容制作等兴起，使得耳机功能使用场景大大拓展；具备主动降噪功能（ANC）的耳机普及，使用户能够自主控制环境噪声，这样的情况下如何优化使用体验、避免反复摘戴都成为使用场景带来的挑战。

另一方面是结构设计挑战。设备体积越来越小，无法像头戴式耳机那样拥有充足空间用来设计避风结构，因此麦克风频繁暴露于风的湍流干扰下，影响主动降噪效果、透传体验、以及用于语音通话识别的效果。此外，佩戴条件的变化和个性化佩戴方式，都会影响聆听体验。来自于场景和佩戴的多种挑战，导致设备搭载的音频功能日益复杂化，耳机不仅要播放内容，还需要拾取声音，对声音指令做出迅速反应，并对环境进行检测，进行信号处理。

声加科技一直专注于通信声学核心技术，并致力于解决端侧设备面临的技术挑战，不断创新和突围，并形成了多种方案。目前多家知名企业TWS（真无线）蓝牙耳机均采取了声加科技的TWS耳机方案，在复杂场景下为人与人通信、人与机器交互提供更清晰、更舒适、更自由的使用体验。

SVE语音增强

声加科技推出的SVE（Soundplus Voice Enhancement）语音增强方案，已经通过IP授权方式应用在上亿套耳机等产品中。

该方案创新性地融合了机器学习技术与语音信号增强技术用于提升耳机传感器系统捕捉目标语音的性能。神经网络具有非线性建模能力，用于抑制动态噪声具有非常优越的性能。但是由于耳机的计算资源非常有限，单独使用神经网络处理语音，会产生语音失真的风险。对此，声加科技利用前端的传统数字信号处理技术与自适应波束技术，提高神经网络输入信号的信噪比，从而提升稳定性。

该方案可以适配各种形态的耳机产品：运动型入耳式、半入耳式或头戴式等，支持使用单颗麦克风到一共搭载四颗通话麦克风的语音增强配置。目前该方案已经广泛应用于多家知名企业的TWS蓝牙耳机，声加科技可提供不同配置的录音样本以及实际成品测听评估。

功能定义

01

（高动态）回声消除器 High-Dynamic AEC

回声消除器（AEC）会消除麦克风接收到的来自耳机扬声器发出的回声成分，并支持全双工通话。当使用反馈麦克风拾取语音时，反馈麦克风会同时收到来自耳机微型扬声器的高动态回声，采用高动态回声消除器可以抑制多达70 dB的回声分量，使得反馈麦克风收到的回声水平低至不可闻。
02

噪声抑制 Noise Reduction

检测并抑制发送和接收方向信号中的稳态和瞬态噪声。常见的稳态噪声包括交通工具背景噪声、发动机以及通风设备发出的噪声，动态噪声包括铃声、人声背景以及餐厅等环境噪声。
03

波束形成 Beam-forming

利用设备配备的两个或多个麦克风组成阵列，可以利用声加科技的波束形成算法自适应地定位目标范围内的语音信号与噪声方向，用以增强目标用户语音，更好的抑制环境噪声。结合声加科技专门训练的深度神经网络单元，可以进一步提升波束的增强效果与稳定性，从而在低至-3dB信噪比的极端复杂噪声环境中提供平稳、高质量的语音信号。
04

深度神经网络处理单元 DNN Unit

深度神经网络参数经由多次迭代训练得到，特别针对耳机信号特点进行设计了包含数万小时的训练数据集，可以在复杂声学环境下准确分离背景噪声。采用的神经网络架构针对耳机常用的计算平台进行效率优化，在满足低功耗要求的前提下完成AI计算。
05

频域均衡 Multi-band EQ

对麦克风和扬声器频率响应进行实时调整，满足客户需求。
06

动态范围控制 Automatic Volume Control – AGC, DRC

使麦克风和扬声器输出信号幅度调整至所需发送响度。声加科技的AGC技术可动态调整输出信号范围，从而使整个音频信号的音量范围更加均衡，提供更加稳定和舒适的听觉体验。
07

后滤波 Post Filtering

将已知噪声与回声信息送入后滤波器可以进行非线性降噪处理，对回声进行进一步抑制。声加科技的后滤波能够消除上行/下行信号中的稳态与非稳态噪声，对语音成分保留完整，语音失真度低。
08

内耳麦克风调理 Self-EQ

Self-EQ模块会根据当前反馈麦克风的ANC参数设置以及实验确定的优化参数对耳道内语音信号进行调理，改善内耳麦克风收到的语音音色发闷的问题，以确保最终输出语音的音色高度还原。