声学前端技术获突破 声加科技重新定义智能语音时代
近日, GfK全国零售监测数据显示:在刚刚过去的8月份,中国智能音箱出货量45万部,尽管已经超过2017同期一个季度的销量,但第三季度国内智能音箱市场呈现下跌。而据GFK预测,第四季度智能音箱将伴随“国庆”“双十一”“双十二”等节日促销而爆发,最终实现全年900万部的出货量,是去年的6倍。
作为物联网人工智能的入口,智能语音产品已成为全世界最有钱的科技巨头们的必争之地。据中国语音产业联盟数据显示,目前全球智能运营市场规模已达到105亿美元。随着个人及家庭用户的多场景支持,各领域应用带动下的智能语音产业规模持续快速增长,预计2018年全球智能语音市场规模将超过140亿美元 。
据声加科技创始人兼CEO邱锋海介绍,在万物互联的今天,信息交互工具经历了物理手柄按键到键盘鼠标,到触摸屏,再到麦克风等语音设备的发展,终于将人类最简单自然的交流方式——听和说,随处可见地应用到了日常工作和生活中。目前随着深度学习的引入以及在此基础上派生的各类模型的组合,语音识别准确率确实得到了大幅度提升,智能音频设备也呈现出多样化和日常化。这些产品虽然大大普及了公众对语音交互的认知和使用,但实际上由于真实场景使用下的复杂、不同设备体积限制对算力的要求等因素,语音产业的发展仍然受技术瓶颈的限制尚处在起步阶段,业界依然共同面临许多技术难题。
据了解,智能语音产品完成一次人机交互,需要经过四个主要技术环节:语音前端处理、语音识别、自然语言理解以及语音合成,即从声音的拾取到转换成文字,到理解其含义并作出反馈,再到将反馈说出。经过多年的技术积累,语音识别和语音合成已经获得突破,目前基本可以满足商用。而语音前端处理和自然语言理解依然是语音交互的核心瓶颈。
邱锋海表示,虽然各项技术独立发展,但从产品上无法割裂,同时需要在其它技术的配合下,才能形成完整链条具备市场化的终端产品。 目前的BAT、小米、京东、华为等巨头企业,基本是从语音识别、语义理解应用后两个环节切入。这主要源于语音识别算法开源,技术相对普及,而巨头们的海量数据和强大算力支撑有足够的优势。但作为流程第一步的声学前端处理产品,因为教育环境下人才的断层和稀缺(此前工程类项目多在科研院所)而有极高的技术门槛,因此,专注这个环节的企业基本集中在有中科大、声学所、自动化所等科研背景的初创企业中。
声加科技成立于今年年初,创始人兼CEO邱锋海本科就读于清华大学,硕士期间在中科院声学所深造,毕业后长期在声学芯片企业工作,曾带领20余人的研发团队完成了世界级知名企业的音频处理芯片算法部分的开发,对声学算法的工程实现、算法和芯片的结合等方面具有丰富的经验;CTO王之禹,中科院声学所博士后,长期从事语音信号处理和识别研究工作,实现多个科研项目的产业化,具有丰富的研发和企业合作经验;首席算法科学家郑成诗,声学所研究员,德国埃尔朗根-纽伦堡大学客座教授,长期从事语音和音频信号处理研究工作,曾作为项目负责人带领团队完成多个科研项目,并创新性地提出许多解决方案。
其核心团队成员大多师出声学所同门,平均在业界拥有超过十五年工作经验,博士以上学历人员占比80%以上。在公司成立以前,团队已有为国内多个巨头企业的智能音箱、智能耳机等明星产品提供远场麦阵模组设计方案、智能耳机麦阵算法、智能耳机模组等实战项目经验,完全具备市场化营运能力。随着公司的成立,将逐渐尝试将最先进的技术应用在新产品上。目前,声加科技的产品规划分三个阶段:第一步,为智能语音交互设备和通信设备提供语音前端处理算法。第二步,在之前工作的基础上,推出语音处理专用芯片。第三步,则是在语音处理专用芯片的基础上,开发出各类麦克风阵列模组,给客户提供语音前端处理的整体解决方案。当前第一阶段的算法产品已经通过了一些国内大厂的验证,即将量产;芯片和模组产品也在快速推进当中。同期与国内巨头合作的二代产品也将在下半年陆续上市,将成为其疯狂增长的生态链中的重要一环。
据邱锋海和声加团队的恩师,我国空气声学领域著名科学家、中国科学院声学研究所研究员/博士生导师李晓东介绍,声学前端技术在语音交互获得突破之前,一直是冷门学科,学科设置非常少,全国每年毕业的博士总共不超过20人,每个博士最多也只专攻某一两个细分的技术方向。而且声学前端技术属于应用类学科,需要大量的课题、项目来积累,培养一个声学方面的专业人才,往往需要四五年甚至更长时间。因此,长期以来,从事声学前端处理技术的高端人才都集中在国家相关科研院所内。即使对于不差钱的巨头们,组建一个有实力的声学前端处理技术的团队也并非易事。
李晓东表示,尽管目前市场增势良好,但现有声学技术仍然处于商业初级应用阶段,距离用户满意还有相当大的距离。比如以Siri为代表的近场语音识别要求必须是低噪声、无混响、距离声源很近的场景,用户一定要对着手机讲话才能获得符合近场语音识别要求的声音信号,环境稍微嘈杂一点语音识别引擎就失灵了;而以智能音箱为代表的远场语音识别场景下,依然存在误唤醒,方言、童音识别不准以及声源移动中的识别率低下等问题。这些限制都需要声学前端处理技术不断改善,实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能,提升语音信号处理质量,进而提高各种环境下的语音识别率。这也是声加团队要致力突破的方向。
据了解,此前声加科技因其技术优势和人才储备已获得中科创星千万级和万魔声学数百万级的天使轮融资;同时与万魔声学成为战略合作伙伴,二者会在智能音频设备上持续联创。随着产品的上市和进一步研发的需要,目前声加科技正在进行下一轮融资。
万魔声学CTO黎懋紘透露,声加科技提供的语音增强技术(ENC),在导入产品后很短时间之内,便成功在各项指标上超越现有产品的水平。这不但帮助万魔在几项热点产品上迅速提升市占,也为声加科技营造了新创公司难得的声势和发展的动能。同时他强调,除优秀的技术实力之外,声加科技核心团队早已经过多年的协作,志同道合、默契十足,是一支专业、热情、高效、有凝聚力的队伍。
最后,邱锋海从技术角度对行业表达出期望,“一直以来,人机交互充满了想象,未来甚至可能和机器视觉、脑科学等融合,实现电影里的酷炫画面。目前只有先解决语音识别的这些技术瓶颈,才能进一步有所作为。”