行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

AI多媒体技术在内容审核场景实践探索_马金龙

文化传媒 2023-08-02 ArchSummit深圳2023|全球架构师峰会 Andy Yang 杨敏

个人介绍

马金龙拥有多年媒体算法开发经验，涉及音视频图像文本领域，曾负责音频前后端处理、弱网优化、音视频质量提升、智能内容安全审核“T网”、内容理解“T悟”等大型项目，并作为“灵声讯”创始人参与智能媒体技术自媒体运营和推广。

内容审核现状与挑战

现状：政府监管趋严、用户内容层出不穷、违规种类繁杂、AIGC内容不可控。
挑战：实时性（紧跟政府管控要求）、准确性（不漏杀不误杀）、多样性（不同算法解决违规种类）、未知性（AIGC内容不确定且存在知识“幻觉”）。

AI多媒体技术实践之路

自建OR第三方：选择自建AI多媒体技术。
T网平台：通过人工智能算法打造一站式内容安全机器审核平台，帮助公司审核团队实现语音、文本、图像、小视频等风险管控能力。
技术模块：语音识别（ASR）、NLP文本审核、多模态识别、音频事件检测、小语种识别、歌曲识别、声纹识别、违规图像识别。

技术方案与效果

ASR：使用深度学习模型Transformer/Conformer提取音频特征，CTC解码得到候选文本，实现语音转文字，为后续NLP审核提供支持。
- 技术架构：Efficient Conformer结合CNN和Transformer，通过量化剪枝和蒸馏技术压缩模型大小，支持CPU和GPU高吞吐量识别。
- 效果：未详细说明具体数据。
NLP：采用Prompt算法、多模态识别算法、关键词挖掘算法、Bert算法、AIGC语料生成算法、Fasttext算法。
- 挑战：变体关键词多样化、文字与表情包结合的复杂表达、特定场景语料不足、特定关键词隐晦表达、正常词与关键词语义差异。
- 效果：未成年人识别精确率99%+。
多模态：结合语气和语义信息提高处罚有效率。
- 算法：Transformer跨模态多头注意力机制、随机森林。
- 效果：处罚有效率为99%+，每日占总机审违规样本约17%。
声音事件检测：检测审核类（娇喘、炸房、怒骂）、普通标签（BRaSS）、背景音乐、说唱、说话、唱歌等声音事件。
- 价值：完善声音类违规审核能力，音频类型分流降低模型成本，语音直播趋势分析。
语种识别：利用预训练Hubert模型特征解析功能，结合线上数据和开源数据集进行模型fine-tune。
- 效果：特定语种测试精准率为97.58%。
歌曲识别：将原始歌曲指纹信息存储于指纹库，进行相似度比对。
- 效果：劣迹艺人歌曲识别精准度为94.16%。
声纹识别：利用VAD进行语音活性检测，ResNet34作为主干网络进行微调训练，余弦相似度计算声纹相似性。
- 效果：特定人物声纹拦截精确率98%+。
涉黄图像识别：基于ResNet50预训练模型结构，结合多任务图像识别算法进行微调训练。
- 效果：机审拦截内容识别准确率为93.15%。

智能内容审核平台案例

流程图：未详细描述。
微服务架构：自研任务编排系统统一算力管理和容灾，拆分算法服务实现细粒度算力伸缩和统一调度，支持多可用区部署。
- 处理能力：最大并发语音流可线性扩展。
- 可靠性：支持多可用区部署。
多任务调度方案：实现可动态配置的媒体算法加工流水线，满足不同审核需求。
管理后台与BI报表：提供管理后台和BI报表功能。

AIGC内容风控实践

文生文拦截：利用关键词+语义理解审核技术，对输入和输出进行审核。
文生图审核：利用AI图像涉政&涉黄审核技术，降低风控风险。
- 效果：对涉政内容进行拦截，对涉黄类裸露、行为、性感等进行拦截，但生成图存在不可控、不合理问题。

未来展望

利用LLM能力强化语义理解，提升审核准确率和数据收集速度。
用户对抗下的精细化算法模型，强化多模态复杂任务决策。
审核平台的langchain+LLM工作流介入，打通舆情监控到内审决策全链路。
AIGC内容用传统算法+AIGC方法做审核。

企业介绍

趣丸科技成立于2014年，集兴趣社交及电子竞技等业务于一体，旗下有TT语音、麦可及TTChat等产品。核心产品TT语音是国内领先的兴趣社交平台，累计注册用户超2亿，成为LPL、KPL、PEL等五大头部电竞职业赛事官方合作伙伴。趣丸科技聚焦兴趣社交领域，积极研发全球数字技术基础前沿领域和关键核心技术。

马金龙趣丸科技（TT语音）个人介绍马金龙多年媒体算法开发经验，涉及音视频图像文本，负责过音频前后端处理，弱网优化，音视频质量提升，智能内容安全审核“T网”，内容理解“T悟”等大型项目。曾作为“灵声讯”创始人，参与智能媒体技术自媒体运营和推广。 1.内容审核目前现状与挑战现状 •政府监管越来越严•用户内容层出不穷•违规种类繁杂•AIGC内容不可控挑战 •【实时性】需要紧跟政府管控要求•【准确性】对花样变体不漏杀不误杀•【多样性】违规种类需不同算法解决•【未知性】AIGC生成内容不确定且存在知识“幻觉” 2. AI多媒体技术实践之路自建OR第三方？ 2. AI多媒体技术实践之路 2. AI多媒体技术实践之路 T网是一个通过人工智能的算法打造一站式内容安全机器审核的平台，帮助公司审核团队实现语音，文本，图像，小视频等风险管控的能力。 2.1语音识别2.2NLP文本审核2.3多模态识别2.4音频事件检测2.5小语种识别2.6歌曲识别2.7声纹识别2.8违规图像识别对于此项目的目的可总结如下： •贯彻国家网信办有关网络内容安全的各项规定•低成本高效率的加强内容风险管控•构建智能审核技术护城河，为公司内容生态保驾护航•探索内容审核新方法，践行公司的社会责任 2.1ASR-技术方案技术目标用户产生的语音数据输入ASR模型，模型输出该语音的文字内容，以供下一环节NLP检查是否包含违规词，或违规内容。模型总体逻辑使用深度学习模型Transformer/Conformer(如图中Shared Encoder)提取输入音频中的特征使用CTC解码得到若干候选文本。 2.1ASR架构 Efficient Conformer •Convolution neural networks和transformersmodels组合•EfficientConformer设计•结合量化剪枝和蒸馏技术，压缩模型大小•提供CPU和GPU，支持高吞吐量识别 2.1ASR-效果 2.2NLP算法总体框架 NLP算法模型： •Prompt算法•文本表情复杂表示的多模态识别算法•关键词挖掘算法•Bert算法•AIGC语料生成算法•Fasttext算法 2.2NLP内容审核的困难与挑战我们的成功案例：纯文本审核面临的问题与挑战： •构建文本表情字母多模态识别系统•异常关键词大数据监测系统•多层次语义分析系统•构建变体关键词挖掘系统•AIGC语料生成系统 •变体关键词的多样化•文字与表情包的结合的复杂表达•文字与字母或字母缩写结合的复杂表达•特定场景语料不足与稀疏性•特定关键词词的隐晦表达•正常词与关键词相同，但不同上下文上语义不同 2.2NLP内容审核-效果呈现 2.2文本未成年人识别关键词匹配分析框架，支持多种匹配方式、多种过滤条件，并支持自定义特殊标记，及支持特定动作行为，将未成年人识别实现模组化的流程分析。未成年识别精确率99%+； 2.3多模态算法原理项目背景 •单模态审核特征不全面，多模态结合语气和语义信息可提高处罚有效率。 •人工审核量级大，需要对不同类型的违规进行灵活处置。建模算法 •Transformer跨模态多头注意力机制； •随机森林； 2.3多模态高准召回模型指标 •多模态算法上线处罚有效率为99%+；•如右图，每日占总机审违规样本约17%；模型价值 •提高对违规样本的召回，减少单模态的漏召；•提供高准标签运用在灵活处置：a.提高处罚响应速度；b.提升人工审核效率； 2.4声音事件检测（Sound Event Detection）检测的声音事件： •审核类•娇喘，炸房，怒骂•普通标签BRaSS•背景音乐(BGM, B）•说唱(Rap, Ra)•说话(Speech, S)•唱歌(Sing, S) 模型价值 •完善对声音类违规的审核能力。•音频类型分流，降低后续模型成本。•语音直播趋势分析。 2.5语种识别项目背景: 线上特定语种管控方案流程：利用音频预训练hubert模型的特征解析功能，结合TT语音线上直播数据和部分开源数据集进行模型fine-tune，从而针对特定语种等进行识别。模型效果：针对特定语种的测试精准率为97.58%。 2.6歌曲识别项目背景：线上歌曲(如劣迹艺人作品等)管控方案流程：将原始劣迹歌曲处理得到的指纹信息存储于歌曲指纹库，用于进行输入歌曲片段的相似度比对，并增添音频文件分析接口用于分析完整歌曲。模型效果：针对劣迹艺人歌曲的识别精准度为94.16%； 2.7声纹识别项目背景：人物声纹识别，针对特定的人物可以做具体管控方案流程： •VAD进行语音活性检测，提取人声部分；•ResNet34作为主干网络，利用线上业务数据和部分开源数据进行微调训练；•利用余弦相似度计算两个声纹之间的相似性。模型效果和应用： 1.特定人物声纹拦截精确率98%+； 2.8涉黄图像识别模型效果和应用项目背景 •在TT语音下，机审拦截内容识别准确率为93.15%；•应用于TT语音和AIGC图片场景；线上色情、性感类涉黄图像识别方案流程 •基于经典ResNet50预训练模型结构，利用线上业务数据和部分开源数据进行微调训练；•同时考虑到标注成本和线上标签数据形态，结合多任务图像识别算法更改模型结构进行学习，从而实现较为精准地识别涉黄图像； 3.智能内容审核平台案例-流程图 3.智能内容审核平台-微服务架构 T网架构处理能力 T网系统可靠性 •自研任务编排系统（AI中台一部分），统一算力管理和容灾•拆分算法服务，细粒度的算力伸缩和统一调度•支持多可用区部署 •最大并发语音流可线性扩展•Pod个数•微服务 3.智能内容审核平台-多任务调度方案目的：实现可动态配置的媒体算法加工流水线，满足任意租户的不同审核需求 3.智能内容审核平台-Ｔ网管理后台 3.智能内容审核平台-BI报表 4.AIGC内容风控实践 4.AIGC内容风控实践-文生文拦截针对文生文场景，利用关键词+语义理解审核技术，对输入和输出进行审核 4.AIGC内容风控实践-文生图审核针对文生图场景，利用AI图像涉政&涉黄审核技术，降低风控风险 •对涉政内容进行拦截 •对涉黄类的裸露、行为、性感等进行拦截不合规图片 •存在的问题：生成图不可控、不合理 5.未来展望 •利用LLM能力强化语义理解，提升审核准确率和数据收集速度 •用户对抗下的精细化算法模型，强化多模态复杂任务决策 •审核平台的langchain+LLM工作流介入，打通舆情监控到内审决策全链路 •AIGC内容用传统算法＋AIGC方法做审核企业介绍趣丸科技成立于2014年，是一家集兴趣社交及电子竞技等业务于一体的创新型科技企业，旗下有TT语音、麦可及TTChat等多款兴趣社交产品。核心产品TT语音是国内领先的兴趣社交平台，累计注册用户已超2亿，并成为LPL、KPL、PEL等五大头部电竞职业赛事官方合作伙伴。趣丸科技利用多年聚焦兴趣社交领域的深厚积累为核心优势，积极瞄准全球数字技术基础前沿领域和关键核心技术的研发和创新。 AI多媒体技术在内容审核场景实践探索趣丸科技的技术创新探索分享平台与你一起用科技创造未来（主讲微信二维码）（扫码关注获得本场演讲PPT）

点击免费查看完整报告

AI多媒体技术在内容审核场景实践探索_马金龙

个人介绍

内容审核现状与挑战

AI多媒体技术实践之路

技术方案与效果

智能内容审核平台案例

AIGC内容风控实践

未来展望

企业介绍

你可能感兴趣

【AI先行者大会】阿里小蜜—智能服务技术实践及场景探索

张尧 AI Agents在On-call助手场景中的探索与实践

【盘中宝】AI在新型电力系统建设中的极佳落地场景，各地陆续出台专项政策，这个行业或迎快速发展期，这家公司已应用AI技术开展相关领域实践-20240311

王鹏哲转转- Clickhouse 在自助分析场景中的探索及实践

大模型在运维低容错场景下的应用实践探索 - 傅建新

大模型场景下生成式AI多模态内容鉴伪实践分享

真型实证技术在配电网中的探索与实践

PON技术在工业互联网领域的探索与实践

黄金-趣丸科技在运维 AI Agent 的探索与实践

AI Agent技术金融应用探索与实践

AI多媒体技术在内容审核场景实践探索_马金龙

你可能感兴趣

【AI先行者大会】阿里小蜜—智能服务技术实践及场景探索

张尧 AI Agents在On-call助手场景中的探索与实践

【盘中宝】AI在新型电力系统建设中的极佳落地场景，各地陆续出台专项政策，这个行业或迎快速发展期，这家公司已应用AI技术开展相关领域实践-20240311

王鹏哲 转转- Clickhouse 在自助分析场景中的探索及实践

大模型在运维低容错场景下的应用实践探索 - 傅建新

大模型场景下生成式AI多模态内容鉴伪实践分享

真型实证技术在配电网中的探索与实践

PON技术在工业互联网领域的探索与实践

黄金-趣丸科技在运维 AI Agent 的探索与实践

AI Agent技术金融应用探索与实践

王鹏哲转转- Clickhouse 在自助分析场景中的探索及实践