语音识别技术如何突围？搜狗走了一条音视觉结合之路

看点：多模态识别再获进步，搜狗联合清华将音视觉融合，提升语音识别的效果，论文已被ICASSP2019收录。

有一个像科幻电影《Her》中的虚拟助理（女友），大概是人们对人工智能美好的憧憬，尽管这一天可能还很遥远。
为了实现这一技术突破，前几年行业更多聚焦语音交互各个难题，而近两年，一些技术先行者开始尝试将语音、视觉、文本等信息结合的方式（即多模态）来推动人机交互技术的升级，多模态交互也成为学界、业界热议的话题。
搜狗也是多模态交互技术的先行者，2017年就开始探索唇语识别技术，2018年推出合成虚拟主播，近期搜狗与清华大学天工研究院联合发表了一篇《基于模态注意力的端到端音视觉语音识别》论文，在多模态识别领域又迈出一步，将音视觉融合到一起来提升语音识别的效果，并被世界顶级声学、语音与信号处理大会ICASSP2019收录。

从最初的语音交互到唇语识别，到机器翻译、搜狗分身（合成主播），再到音视觉识别，搜狗这一技术进展可谓步步为营，而这背后则是搜狗在“自然交互+知识计算”的理念下，死磕技术难题，让人机交互更高效自然。

噪声环境下语音识别的另一条路
随着AI的发展和智能音箱的推动，语音交互已经逐渐成为智能硬件的标配。作为语音交互前端的关键一环，语音识别近年也得到快速发展，不少公司都可以在安静环境下将识别率做到98%以上。然而一旦进入噪声场景，语音识别的准确度就会大大降低。
在智能硬件上，目前业界的主流方式是通过麦克风阵列来进行信号处理，用硬件的方式来进行噪声消除，但当环境复杂噪声很大的情况下，语音识别仍然存在很大瓶颈。
能不能通过视觉AI的方法来解决这一问题，尤其是在噪声环境下，视觉会不会成为语音识别准确率的一个有效补偿？因为视觉的识别方法不受环境噪音的影响，在嘈杂的环境下，人们即使听不清对方讲话，依靠唇形也能大体明白讲话者的意思。
正是出于这样的考虑，搜狗公司与清华大学天工研究院去年开始尝试语音和视觉结合的方式，即音视觉多模态识别来提升语音识别的效果。
据搜狗介绍，这项技术研究从立项到论文投出仅用了近4~5个月时间，而之所以进展较快，与搜狗在语音识别与视觉识别领域的积淀密不可分。
在2016年，搜狗就开始做以语音为主的人机交互，并积累了语音识别、语义理解、机器翻译、语音合成等全链路语音技术。
而在2017年底，搜狗就推出一项“黑科技”唇语识别技术，这在当时领先行业。当时唇语识别针对日常用语可以做到50%~60%的准确率，针对命令词的识别可达到85%~90%，较早地做了唇语识别的技术储备。
此次，搜狗取得阶段性成果的音视觉多模态识别技术，正是基于语音识别和唇语识别这两种关键技术。“通过二者的有效结合，可以在噪声环境下，提升30%以上的语音识别准确率”，搜狗语音交互中心技术总监陈伟谈道。

用模态注意力提升识别效果
要实现音视觉识别不同模态的融合并非易事，因为声音和视觉的特征差异很大。而简单的将两种模态拼接会造成信息损失，视觉信息对听觉信息的提升也很有限。搜狗提出了一种模态注意力的方法，依据不同模态信息的重要程度进行动态调整融合，得到更加鲁棒的融合信息。
清华大学天工研究院周盼解释道，在音视觉信息融合的过程中需要解决两个问题，第一个是音视觉信息不等长的问题，第二个是贡献不等价问题。

具体而言，声音和视觉在时间序列下的采样频率不同，一般情况下，音频为每秒采样100帧，而视频为每秒24帧。音视觉识别首先需要将这100帧和24帧对齐，将这二者的信息融合共同做一个决策。对于声音和视觉同步的信号来说，虽然可以按照二者帧速率的比值进行大致对齐，或者上采样、下采样的方法将二者变为相同帧速率进行融合，但是存在一定的信息损失。对于声音和视觉不同步的信号，对齐就变得更困难。
另一个问题是贡献度不等价。对于音视觉语音识别，在安静环境下应该是语音为主导，在嘈杂环境下视频信息的贡献度相比在安静环境下应该提升导。因此需要根据环境动态的调整音视频的贡献比例。
搜狗提出的模态注意力端到端音视觉模型，能够将音视频信息进行有效融合，然后根据具体的环境，动态调整选择声音还是视频作为主要的识别对象，进而获得更优的识别效果。具体而言，通过第一层常规的注意力（或者称为内容注意力）得到在每个解码时刻相应对的听觉和视觉上下文向量。这两个上下文向量内容上是彼此对齐的，这也就解决了上文提到的信息不等长的对齐问题。对于贡献度不同的问题，如上图，采用了第二层注意力，即模态注意力来依据声音和视觉对识别的贡献度动态的确定两个模态的融合权重，得到包含声音和视觉信息的融合上下文向量。
在一个Demo中，搜狗模拟了安静、地铁、大厅等环境，并提供了语音识别、唇语识别、混合识别三种模式。

可以观察到，在安静环境下，语音识别的准确率要高于唇语识别；而在噪声环境（地铁）下，唇语识别的准确率明显高于语音识别。而在混合识别模式下，能够达到识别效果的最大化。
比如，搜狗研究员杨文文用混合识别模式在噪声场景下做了演示，说了一句“打电话给爸爸”，可以看到无论语音识别还是唇语识别都存在误差，而二者的有机融合下，呈现出了准确的识别效果。

商业化未来可期
在商业化落地方面，陈伟表示，搜狗可能会率先将音视觉识别技术在搜狗输入法上做尝试，今年可能就会看到一些成果。另外搜狗也在和几家车厂合作，积极开展音视觉识别技术的落地。

放眼当下的应用场景，无论是智能硬件，还是智能家居IoT领域，单纯的语音效果其实并不理想，在复杂环境下单纯靠硬件提升语音识别效果的方式也遇到一定的瓶颈。而此时采用音视觉多模态的识别技术，或许能够将现有的AI效果带向一个新的台阶，从而创造更大的商业价值。