好看的⽪囊配上有趣的灵魂 ——腾讯云数智⼈与⼤模型知识引擎解决⽅案 李洋/腾讯云智慧传媒行业解决方案专家2024/04/23 数智⼈在传媒⾏业的需求与场景蓬勃上升 腾讯云智能数智人是新一代多模态人机交互系统,具备形象生产、交互对话、音视频播报等核心能力,应用覆盖传媒、零售、证券、保险、医疗、在线教育等10+行业,助力客户快捷打造有智能、有形象、可交互的“数智分身”,提升企业经营效率、服务温度。 算法提升 更真实的AI驱动能⼒ 训练管线 构建数智⼈⼯业级⽣产流⽔ 数字人大量案例开始进入业务实践 2023 -2024 驱动提升 更真实的AI驱动能⼒ 2020 -2022 fusionmedia3.0 端云渲染 并发与渲染能⼒灵活调度 在直播交互领域各有精彩的案例涌现 2018 -2020 场景拓展 播报\助⼿\交互 先锋案例引起用户关注 服务加持 PaaS接⼝或端到端SAAS 腾讯云数智⼈产品介绍 2D数智⼈ 2D数智人仅需提供1张照片或1段视频,即可快速生成和真人近似的数字人分身,五官、动作、表情完全模仿真人。 2D系列数智人 适合短视频制作、知识口播制作、本地生活带货等亟需提升人效的场景 3D数智⼈ 3D数智人会根据客户的需求设定数智人五官特征、发型、服饰、配饰等完成原画。经过形象建 模、骨骼绑定、渲染、UE调优等阶段后可输出覆盖交互、播报场景的数智人。 中国国家博物馆中华文明云展 身穿图案为“玉凤”造型的数智人艾雯雯作为云展导览员,带领观众沉浸式观展 腾讯云智能数智人是新一代多模态人机交互系统,具备形象生产、交互对话、音视频播报等核心能力,应用覆盖传媒、零售、证券、保险、医疗、在线教育等10+行业,助力客户快捷打造有智能、有形象、可交互的“数智分身”,提升企业经营效率、服务温度。 数字经济学者刘兴亮 2D⼩样本专属⼝型 焦点访谈劳春燕 2D⼩样本4K⾼清 2D⼩样本照⽚数字⼈ 口播博主 2D⼩样本通⽤⼝型 2D精品数智⼈ 焦点访谈劳春燕 2D⼩样本数智⼈:低成本极速构建超写实的数智分⾝ 3D数智⼈:打造AIGC的企业新IP永久代⾔⼈ 3D写实数智⼈(S级) 小微2.0 呦呦3.0 3D半写实数智⼈(A级) 艾云 3D卡通数智⼈(B级) 叮当 腾讯数智⼈产品优势:形象⾃然度、⼀站式平台应⽤拓展性业界领先 形象自然度业界领先 5种形象类型 5 覆盖企业服务全周期 4类企业服务板块 4 驱动技术业界领先 3种驱动⽅式 3 交互体验佳 2种交互类型 2 场景应用拓展性强 1站式数智⼈平台 1 •5种形象类型:2D精品、2D小样本、3D写实、3D半写实、3D卡通 •效果逼真:唇形、表情、姿态、动 •4类企业服务板块:业务办理、用户运营、营销获客、品牌宣传 •落地规模:业务办理规模市场第一 •3种驱动方式:文本驱动、声音驱动、视频驱动 •音色种类丰富:支持150+音色, •2种交互类型:播报、交互 •时延低:首帧延迟<600ms,POC多次获得第一名 1•站1站式式平应用台平台升:级支持被数集智人成运营管理全流程服务。 作拟人度高 支持多情感、多语种、多方言 2种交互•⽅接入案方式升:H5级/小程多序/模 •定制高效:具有2D形象制作管线,支持摄影棚录制训练、1-3分钟视频训练、换脸定制、照片定制;3D形象制作管线支持照片建模, •行业案例:覆盖银行、证券、保险、 教育、政务、传媒、文旅、运营商、交通出行等多个行业 •业务场景:业务场景丰富,数据积累量大 •音色自然度高:MOS评分高,无 延迟感,真实度高,语音质量好 •服务器并发高,服务器性能优越、软硬件配置规格高 •3多种模交驱互能动力全:升NLP级、知识为图谱、视觉等多种AI技术综合运 用,加深感知理解 Android/iOS ⽣成式驱动⽅案 •渲染引擎:Webgl/Unity/UE •通信协议:支持RTSP/ 建模供给有星瞳团队加持 •IP授权:可提供腾讯优势IP形象授权 4类业务场景升级提供场景组Web合RTC解/TRT决C等多⽅种通案信 协议 5种形象类型升级覆盖8个SKU,产品矩阵丰富度⼤幅提升 腾讯数智⼈产品优势:形象⾃然度、⼀站式平台应⽤拓展性业界领先 云智能数智人平台,坚持为伙伴提供高效集成工具,现已支持支持客户“自助定制”数智人,提供多终端、多引擎aPaaS接口能力,今年还将全新推出全套iPaaS工具箱,让伙伴可以在天级别完成过往1-2个月才能完成垂类场景的应用,快速抓住市场机遇完成商业化落地。 23年伙伴建设概况 10+ 伙伴方案覆盖行业 伙伴saas在短视频营销、直播saas方案覆盖零售、证 券、保险、医疗、传媒、在线教育等10+行业。 1000+ 客户数量 得益于被集成模式的坚定执行,腾讯云智能数智人成 为多行业伙伴的首选,23年,伙伴数量1000+ 100万 + 节约拍摄时间成本 伙伴在口播知识生产、营销短视频等场景累计制作100万+个视频,累计节省100万+小时时间成本 伙伴业务平台 500% 伙伴客户提效 与伙伴联合打造的垂直行业saas解决方案,已服务数百家下游客户,客户在内容生产及客户服务业务场景,成本降低90%,效率提升500%。 文本驱动 视频驱动 音频驱动 云智能数智⼈aPaaS底座 训练管线 应用平台 产销服体系 数智⼈平台-配置端及应⽤端升级产品界⾯ 数智人平台配置端:当前已支持通过appkey绑定方式对客交付,集成知识引擎iframe页面方案已在提测阶段,3月内发布。 数智人应用端:数智人体验中心小程序可支持创建角色数智人、体验数智人&知识引擎一体化问答交互效果。 交互模式体验再升级,好看的⽪囊+有趣的灵魂+出⾊的业务能⼒ 业务模块-升级的核⼼环节 感知 理解 NLP 表达 ASR人脸/手势识别口型驱动动作驱动 交互界面 aPaaS/SDK 对话大模型 实时生成问答 多模态问答 大模型数智人PaaS服务 TTS纠正 动作预测 富文本解析 大屏/H5 流式回复语文本接收 前端UI组件 流式播报 文本图像采集 语音 典型案例 数智⼈员⼯培训 数智⼈参访接待 结合大模型知识引擎,大幅提升数智人智能程度、企业知识梳理及维护的成本,同时催生了互动营销、AI口语陪练等2B2C场景应用的广泛应用。 客户反馈 基于知识引擎升级后的交互效果,获央视《焦点访谈》主持人劳春燕高度认可。 智能对话:基于⼤模型知识引擎,打造数字⼈智能助⼿ 传媒场景数智人场景,结合智能助手功能实现问答自动响应。智能助手基于领域大模型,增强语言理解和问答生成,解决客服的数据生产高、跨场景适配差的问题,提供精准高质量的智能对话服务,加速渗透。 ⼤模型问答场景 语⾔理解模型 理解语⾔模型 基础⼤语⾔模型 基于内部⼤语⾔模型 任务监督数据 Prompt训练对⽐学习强化学习 表格问答模型冷启动模型语义匹配模型 领域⼤语⾔模型 理解准 领域内QA数据 对话模型 Finetune 调优语⾔模型 ⼤规模的领域数据 ⾃监督的 ⼆次训练 领域⼤语⾔模型 对话语⾔模型 强化学习训练调优后的⼤模型 答的对 ⽣成模型 训练reward模型 Reward模型 … 问答数据标注写作语⾔模型 对话数据标注 PromptTuning 智能对话:基于⼤模型知识引擎,打造数字⼈智能助⼿ 传媒场景数智人场景,结合智能助手功能实现问答自动响应。智能助手基于领域大模型,增强语言理解和问答生成,解决客服的数据生产高、跨场景适配差的问题,提供精准高质量的智能对话服务,加速渗透。 ⼤模型问答场景 语⾔理解模型 理解语⾔模型 基础⼤语⾔模型 基于内部⼤语⾔模型 任务监督数据 Prompt训练对⽐学习强化学习 对话模型 表格问答模型冷启动模型语义匹配模型 理解准 领域⼤语⾔模型 领域内QA数据 Finetune 调优语⾔模型 ⼤规模的领域数据 ⾃监督的 ⼆次训练 领域⼤语⾔模型 对话语⾔模型 强化学习训练调优后的⼤模型 ⽣成模型 训练reward模型 Reward模型 答的对 … 问答数据标注写作语⾔模型 对话数据标注 PromptTuning 腾讯云⼤模型知识引擎-企业级知识应⽤构建专家 更易用的工具链:接入门槛低、配置工具完善 知识应用 开放模型配置、知识配置等配套工具链,提供最小的必要输入即可获得最佳效果,支持测试-修正-发布-反馈增强的一站式流程 开箱即用的应用类型(应用中心) 知识问 答类 知识库问答 文档问答 知识摘要 知识总 结类 标签分类 灵活定制的接口服务(原子能力中心) 文档解析 向量检索 多轮改写 应用配置 知识库管理 应用评测 审核发布 数据看板 运营调优 大语言模型 更专业的效果:擅长多模态知识处理和行业场景化知识理解、打通落地的最后几公里 知识处理(RAG) 使用OCR、LLM+RAG、MLLM等多种技术能力,擅长处理企业级多模态复杂知识,基于混元大模型技术及多行业丰富高质量数据训练,具备更好的行业知识处理能力 向量检索及综合检索 LLM生成(行业大模型) 阅读理解 摘要 标签分类 复杂知识导入 OCR解析 MLLM (图片理解) 用户query 意图理解改写 rerank Prompt 任务处理 知识引擎是基于⼤语⾔模型的知识应⽤构建平台 测试及发布体验 应⽤配置知识管理 应⽤配置及体验:知识库问答 模型配置⽀持⼤/⼩参数模型切换,按需灵活配置,包含⾏业⼤模型(7B、13B、70B)、混元(标准版、⾼级版) 开放模型配置、知识配置、人设配置等配套工具链,引导客户提供最⼩必要的输⼊,以获得最佳的应⽤效果 知识引擎是基于⼤语⾔模型的知识应⽤构建平台 产品⼊⼝ 新建应用 知识库问答应⽤:深⼊企业“知识”,解决业务“难题” 企业知识 事实性知识概念性知识程序性知识 各种术语、描述、条款、介绍说明 汽车术语:智能钥匙、近光灯、远光灯、自动防抱死系统、安全座椅等 二维表格、知识图谱 (1)围绕汽车车型的结构化表格,行列之间 表达对应的关系: (2)围绕汽车中实体和属性构建的知识图谱 ⼀组有序的步骤 指如何完成某一业务的一套流程或步骤,典型的如 业务对话流、业务画布 例如办理汽车贷款,包含了确认汽车类型、汽车排量等一系列流程 提供问答校验-测试-修正-发布的一站式工具链,控制幻觉 14 聚焦业务细分场景,提升关键场景的答案出图率,输出图⽂并茂的答案 图文输出:构建图、文、表混排文档的高质量训练数据,优化prompt设计,提升出行、零售等关键行业场景下的出图率,生成图文并茂的答案。 出图率50%以上vs.GPT-4的出图率20%左右 知识库问答应⽤:基于LLM+RAG框架,做深做透全链路能⼒ 1 知识解析 2 知识切分 •OCR解析大模型准确率提升25% •通过长文本大模型对文本进行多级语义拆分(标题、副标题、段落等) 1 •8种元素:段落、表格、 公式、图标等; •算法能力:版面分析、元素排序 2 •覆盖论文、杂志、说明书、试卷、海报、PPT... 4 模型阅读理解&答案生成 3 知识检索 4、多列混排文档 3、流程图 2、结构化表格 1、图文混排文档 •业内首个的长文本切分大模型,比传统切分方式准确率提升x% •将OCR识别的标题提供给切分模型,进行多级切分,避免语义截断,提升检索及阅读理解准确率 场景 能力 用户问题 •深入上百个客户的应用场景,亿级行业数据针对性训练 •Embedding模型从512字提升到4k,支持多套检索策略 数字问答 操作步骤问答 “债券增强1902理财产品我持有了190天,赎回手续费是多少?” “智能钥匙怎么使用?” 表格问答 推理比较 “我想在南山西丽街道组每月每平方60“标准版和旗舰版差多少钱?” 元左右的办公场地,有什么推荐” 1.在国际知名的C-MTEB榜单上,模型在8个中文任务上可以达到效果最优 2.使用向量关键词混