AI应用实例（三）：音频审核

编辑导语：在互联网时代，各种各样的内容类产品层出不穷，那么相关监管部门对内容的审核环节就显得十分重要，各方面都需要审核到位，本篇文章讲述了AI技术在音频审核方面的应用，一起来看一下。

音频审核作为内容安全产品的一个模块，在内容审核中既需要支持视频中的音频审核，还需要能支持单独的音频审核，本节将跟大家一起讨论关于音频审核的产品设计与应用。

一、背景

随着各种各样的内容类产品发展，当内容管理不到位时，就容易触犯到国家对内容监管的的政策。

如何避免违规内容的传播可以说是各大内容厂商最关注的环节之一。

因此，对内容的管理，都需要进行审核到位，但是如果纯靠人工审核，估计像头条号这样的资讯平台，一天得有上万人审核了。

目前各家对内容都会接入内容审核平台，基于人工智能技术实现内容审核，其中根据素材维度可以分为视频审核、文本审核、图片审核和音频审核。

从审核内容角度看又包括色情、涉政、图文违规、暴恐、违禁、广告等。

本文将选择音频审核的维度展开讨论。

二、关键技术

关于音频审核中的关键技术，我们可以从两个方面进行理解，分别是“有语义”和“无语义”。

1. 有语义类型

有语义类型是指待审核的内容中有明确的语义信息。

这里文本审核一般可以先经过ASR识别后，转成文本信息进行审核，所以会涉及到以下技术。

语音识别

语种识别

NLP技术

2. 无语音类型

无语义类型识别是指音频内容中不含语义信息，所以无法通过ASR+NLP进行识别处理。

主要包括娇喘、呻吟、ASMR 等没有明确语言含义的音频内容。

直接提供提取音频的声纹特征进行分类识别，判断是否违规。

3. 特殊的类型

这里主要是指违禁歌曲识别，一般这样的违规内容虽然包含了语义信息，但是可能直接从内容信息上是无法判断的。

所以需要结合声纹识别+音频检索的技术进行来识别，首先构建违禁歌曲库，然后再根据音频声纹特征进行识别并检索。

如果出现在曲库中则判断违规，否则放过。

三、产品设计

1. 应用场景

（1）场景：常见的需要应用到音频审核的场景有语音聊天室、视频直播间、语音广场、FM电台、音频文学等都需要采用音频审核保证内容的安全性。

（2）审核内容

涉黄审核

广告审核

涉政审核

违禁审核

注：其实音频只是一个载体，以上审核的内容实际上视频审核也会涉及。

（3）场景发散

这里多发散下思维，由于目前各个内容审核厂商已经基本是同质化竞争了，所以产品的后续要想继续保持竞争力。

一方面是技术能力的迭代加强，另一方面也是需要进一步拓展场景。

比如是否支持AR内容的审核，又或者跟当前元宇宙结合，是否开始研究将来元宇宙内的信息审核呢。

2. 业务流程

这里从宏观点的角度陈述产品的业务流程，具体的细节可以交流，不在文章中赘述，业务流程中主要包括三块。

源数据+预处理

模型处理

人工复审

注：在实际业务场景中，一般会考虑是先审核再内容发布还是先发布再内容审核。

这里就需要根据业务进行判断，因为这同时涉及到内容时间（希望抢占热点）和风险的制约。

一般可以考虑将违规风险很低的内容做先发后审（但是要提供及时下架的能力，避免出现扩散风险），比如PGC内容。

3. 产品功能设计

本节的产品功能设计主要从能力平台角度出发进行讲解，至于业务结果输出后涉及到的业务系统这边不做分析。

一个比较完备的音频审核产品可以从以下几个角度进行设计。

（1）功能接口：提供好用的API和SDK能力，包括数据请求分析、数据结果查询、规则定义接口（比如添加违规词等）等接口。

在设计时，需要设定好字段的支持力度，比如对于请求时要支持URL，同时是否需要支持音频审核模板（模板这里是指一段音频全部审核，还是根据模板中选定的审核维度进行审核，比如只审核涉黄）。

（2）可视化界面：建议同步提供可视化界面便于接入的用户进行数据查看，可视化界面不仅可以提高用户体验，也可以辅助用户进行产品使用。

一般可视化界面可以包括以下几点。

音频分析

规则设定

数据统计

注：除了上述三点，还可以支持用户管理，比如用户可以在系统中创建用户账号，支持不同业务系统使用等。

4. 评估指标

评估指标需要考核两个方面。

违规识别准确率

违规识别召回率

音频审核的发展对音频市场扩大可以起到很好的辅助作用，对内容发布的监管可以实现降本增效。

但是在实际使用过程中，我们还需要思考业务应用场景，针对场景进一步迭代优化技术，比如车载场景的音频内容是否可以很好审核呢。

目前还存在很大的难度，因为车载场景的音频容易受到很多噪声的影响，所以不利于识别。

因此，总的来说，对于产品，需要能够结合业务做到场景可控，让AI真正发挥作用。

本文由@Eric_d 原创发布于人人都是产品经理，未经许可，禁止转载。

题图来自 Unsplash，基于CC0协议。