腾讯云传媒⾏业⼤模型落地实践 叶国宇 腾讯云智能高级解决方案架构师 CONTENT ⽬录 01腾讯⼤模型最新进展 02腾讯⼤模型在传媒⾏业的落地实践 腾讯云智能拥有全球领先的AI研究和产业落地能⼒ 腾讯云智能在计算机视觉、智能语⾳、⾃然语⾔处理、机器学习等领域已取得多项技术突破,持续推动前沿技术的产业落地。下设多个顶级 ⼈⼯智能实验室。腾讯优图实验室多次在⼈⼯智能国际权威⽐赛中创造世界纪录,腾讯云⼩微、AILAB等团队协同深耕AI语⾳及语义能⼒,多次在国际国内⽐赛中拔得头筹。共拥有5000+AI相关专利,发表顶会论⽂800+篇。 计算机视觉 ⽂字识别 语⾳识别语⾳合成 ⾃然语⾔处理 机器学习 5000+项 AI相关专利 800+篇 双赛道冠军 图像匹配技术CVPR2021ImageMatchingWorkshop 全球第⼀ 神农”多语⾔预训练模型获得国际权威榜单XTREME总榜及全赛道全球第⼀ 四项国际第⼀ 国际顶级图学习榜单OGB上,获得图属性预测赛道Ogbg-molhiv、Ogbg-molpcba等全部四项榜单第⼀ 冠军及最佳创新奖ICCV2021LVISChallengeWorkshop 论⽂⼊选IJCA/CVPR/ICASSP/ACL 等全球顶会/期刊 中英新闻翻译第⼀ WMT2021中英⽂新闻翻译评测 Text2SQL榜单第⼀ CoSQL、Sparc数据集荣登Text2SQL榜单第⼀ ⼤模型发展历程 计算智能 表⽰、计算、存储与⼈机输⼊、输出 感知智能 ⽂本内容识别、图像识别、语⾳识别 认知智能 知识数据双驱动、认知智能、决策智能 意识智能 涌现能⼒思维链 知识算法 ⼤模型 算⼒数据 ⼤模型发展历程 GPT=GenerativePretrainedTransformer(⽣成式预训练模型) 2016 2018.6 第⼀阶段:模型规模增⼤,融合的任务更多 第⼆阶段:利⽤⼈⼯标注引导⽣成 规模增⼤Prompt预训练 规模进⼀步增⼤ in-contextlearning ⼈⼯对齐SFT强化学习RLHF InstructGPT ChatGPT GPT-1 GPT-2 GPT-3 数据:+⼈⼯标注数据(万级别)模型:GPT-3+强化学习 参数:1.3B 特点:需求理解能⼒⼤幅提升,⽣成能⼒⼤幅提升 数据:+更多的对话语料模型:GPT-3.5+强化学习参数:175B 特点:对话理解能⼒提升 数据:BookCorpus(7000本书)模型:AR(TransformerDecoder)参数:0.117B 特点:pretr⼤模型n+finetune 数据:+Reddit⾼质量Webtext模型:同GPT-1 参数:1.5B 特点:+NLP任务的prompt预训练,具备zero-shot的能⼒ 数据:+FilterCommonCrawl模型:GPT-2的基础上+sparsetransformer 参数:175B 特点:zero-shot效果⼤幅提升 GPT-1 2019 GPT-2 2020 GPT-3 2022年初InstructGPT 2022年12⽉ ChatGPT 2023年Q1GPT-4 发布Gym强化学习平台 1.17亿参数 15亿参数 1750亿参数 13亿参数 基于GPT-3.5微调后⽤来改进GPT提升性能&多模态 &Universe训练⼯具包 ⽆监督预训练+有监督微调 半监督语⾔模型效果验证 超⼤模型 ⼈类反馈强化学习 语⾔模型的聊天机器⼈ 更贴近⼈类实际思维 2016 2017.6 2018.10 2019 2021 深度学习框架 Transformer BERT T5 SwitchTransformer TensorFlow发布分 6500万参数 3亿参数 110亿参数 1.6万亿参数(⼈类⼤脑⽪层参数10万亿) 布式版本 2017-2022年初,演进动⼒:训练语料&模型容量更⼤2021年底-⾄今,演进动⼒:从⼈类反馈中学习 模型提升的三个技术路线prompt&RAG&FT ⼤模型在落地应⽤时,容易出现幻觉,⽽且很可能⾏业知识不⾜。 提⽰⼯程,通过例如few-shotprompt的⼿段增强输出 -快速的提升模型输出遵循性。 RAG(Retrieval-AugmentedGeneration)检索增强⽣成 -少量的个性知识、快速更新的知识。 FT(Fine-tuning):微调,对模型进 ⾏微调 -⼤量的⾏业知识、表达⽅式、技能。 综合⼿段:综合利⽤微调、提⽰⼯程和RAG 外部知识⽀持强 ⾼级RAG: 索引检索优化 初级RAG:上下⽂段落 递归提⽰思维链CoTFewshot 弱 模块化RAG:多模块有机组合 RAG 检索增强 Prompt-Engineering 提⽰词⼯程 多次尝试 ALLoftheabove 复合使⽤ Fine- Tuning 模型精调 检索器微调 协同微调 ⽣成器微调 模型⾃⾝适应⼒ 弱强 腾讯⼤模型最新进展 国内与全球先进⽔平仍有差距,但在快速追赶 混元部分中⽂能⼒已追平GPT-4 整整体 体 102% ⽂⽂科理 分 开理科 105% 97% 混元在⼀众国产⼤模型中位列第⼀梯队 混元vsGPT-4turbo(腾讯混元团队24年5 ⽉评测结果,GPT-4turbo为100%) 参考沙利⽂《2024年中国⼤模型能⼒评测》 中国⼤模型均线=15个参评⼤模型均分 国际⼤模型均线=Gemini1.0+GPT4+GPT3.5+Claude2 腾讯⼤模型:⽴⾜⾃⾝,实战打磨,赋能百业 技术层⾯:腾讯拥有强⼤的算法、算⼒和中⽂数据优势。落地层⾯:丰富的应⽤产品是⼤模型最好的试炼场。 腾讯内部已有600+业务接⼊混元 在腾讯丰富的⽣态中迭代能⼒ 腾讯⼤模型实现了从基础设施到模型构建的全⾯布局 模型 ⽣⽂ ⽣图 ⽣视频 ⽣3D 基建 算⼒ 平台 腾讯Angel机器学习平台 ⽣⽂:率先探索万亿⼤模型,同时兼顾中⼩模型 最⼤模型已拓展⾄万亿混合专家模型 (MoE) 多个专家 组成的MoE模型 单个稠密模型 中⼩型模型同样积极部署 1B、3B、7B、13B 等不同参数量下的Dense和MoE模型均有布局 ⽣图:混元依托升级架构,测评结果国内领先 Text 基础架构升级⾄LLM+DiT LLM Prompt 扩散⽣成模型 CLIPDiT⽣成模型超分模型 评测结果国内领先 混元⽂⽣图 100% 国内某⼤⼚(1) 73.6% 国内某⼤⼚(2) 70.2% 作为业内⾸个中⽂原⽣DiT架构,已全⾯开源 中⽂原⽣,更懂中⽂ ✧⿊⾊的臭⾖腐放在⽩⾊的碗中,上⾯撒有绿⾊和红⾊的辣椒,背景是桌⼦ ⽀持多分辨率 ✧⽀持1:1、4:3、3:4、16:9、9:16等多种规格⽀持768~1280分辨率图像⽣成 ControlNet LoRA IP-Adapter Photomaker 更兼容⽣态 ✧HunYuan-DiT可以灵活地⽀持ControlNet、LoRA、IP-Adapter、Photomaker等SD社区 的插件 ⽣视频:4⼤核⼼能⼒,⽣成效果领先 4⼤核⼼能⼒ ⽂⽣视频 图⽣视频 图⽂⽣视频 视频⽣视频 多样化的产品玩法 视频风格化 跳舞视频 视频重绘 艺术字视频 视频写真 …… 分辨率更⾼ 运动幅度更⼤ 混元 Pika Runway 粉红⾊牡丹花 绽放,延时效 果。 风景如画的⼩镇 坐落在群⼭之中, ⼀座巨⼤的教堂塔在众多建筑中 脱颖⽽出。 全⾯升级:基于ST-DiT研发下⼀代⽣视频⼯具 ⼀位美丽的年轻 ⼥⼦,穿着复古的连⾐裙,头戴草帽,站在⼀座 城堡前。 海浪冲击着海滩上 崎岖的悬崖。 ⽣3D:混元在效率与质量上业内领先 动漫 汽车 建筑 其他(⽂物/萌宠) 单图仅需30s ⽣成3D模型 国产⼤模型进⼊应⽤深⽔区,仍有⼴泛研究空间 国产化 信创 跨模态理解与⽣成 端侧⼤模型 腾讯云传媒⾏业⼤模型落地实践 打造⼤模型时代原⽣⼯具链 三⼤引擎降低模型应⽤门槛 知识引擎 图像创作引擎 视频创作引擎 基于⼤语⾔模型的知识应⽤开发平台 基于⼤模型的AI图像⽣成与编辑能⼒ 多模态算法技术视频创作能⼒平台 ⼤模型知识引擎,激活企业知识,焕新⽣产⼒ 新闻摘要 虚拟导游 代理⼈辅助 ⼀⽹通办 电⼦说明书 员⼯服务 物业管家 腾讯内部产品赋能 语⾳助⼿ 智能客服 企业知识库 提升知识处理效能、加速对话应⽤搭建 合作伙伴应⽤共创 传媒 ⽂旅 ⾦融 泛政 零售 能源 地产 数智⼈ 核⼼服务 开放对接层 开箱即⽤的应⽤范式 灵活定制的接⼝服务 对话运营层 输出配置、测试、审核、发布、运营调优、数据监控 知识处理层 知识导⼊ ⽂档/⽹页/搜索 知识解析 知识切分 问答提取 知识标签 模型层 多⾏业⼤模型 (政务、⽂旅、⾦融、教育、医疗…) 底层能⼒ API OCR ASR TTS 从场景到落地,⼤模型知识引擎需要克服三⼤难题 1.知识获取 2.知识处理 3.知识检索 4.阅读理解5.答案⽣成 -通⽤⼤模型,缺少垂直场景企业级知识的理解 -基于通⽤⼤模型Finetune,成本⾼、时效性弱 1.垂直场景业务知识更新快 •类型:事实性知识(⽂档)、概念性知识(表格)、程序性知识(画布) •格式:pdf./docx./excel/xmind/html; •排版:图⽂表混排、双排、三排 •元素:⼤⼩标题、页眉、页脚、⽔印 2.企业知识输⼊篇幅长、多样化 -研报解读:数字混淆、数字区间⽐较不准确; -说明书:操作步骤不完整、步骤混淆; -多产品咨询⽐较:表格属性问答、总结、⽐较 不准确 3.对⾏业细分场景理解难度⾼ 实际难点总结 ⼤模型场景 ⾏业应⽤的实际业务落地 模型知识引擎,激活企业知识,焕新⽣产⼒ 企业事实性知识 难点:图⽂并茂、排版复杂 常常包含⽆明显边界的组合图形,且易重叠、错位,极⼤影响模型阅读理解准确率 传统解析 基于⽂档元素及位置信息,“定制化”进⾏重组和排版 图⽚解析遗漏阅读顺序改变 版⾯分析、元素排序 ⽂字识别、表格识别、公式识别 1、图表混排 2、图⽂混排 4、多列排版 3、分章节⽂档 OCR⼤模型解析 将复杂⽂档图⽚表格转换成可编辑的markdown⽂本 图、表等关键元素准确识别 阅读顺序正确 案例:⼤模型结合多模态技术助⼒川剧⾮遗⽂化传播与保护 通过⼈与⼤模型对话,学习川剧相关知识 利⽤⾃然语⾔对话,检索媒资库中和匹配的川剧⽚段 头饰 火云流星 肩领(可修改) 脸谱 纹样库 好的,正在帮您查找。 为您推荐 提⽰:如果您想要查询内容,请说“我想看” 案例:某⽇报基于⼤模型构建国际传播应⽤ 模型精调数据集 40年报道⽂档 Stylebook 精选英⽂素材 可信信源的数据集 动态知识库 增量更新⽂档 ⼈⼯运营知识库 模型能⼒与精调 某⽇报精调⼤模型 (MAAS) ⼤模型RAG知识引擎 (动态语料库) ⼤模型编排调度引擎 智能体应⽤构建模型接⼊与编排BaaSAPI输出 国际传播智能体应⽤平台 知识库问答智能体类 智能运营智能体类 ⽣产辅助智能体类 实体标签抽取智能体类 智能体平台API 可信源⽹站/API导⼊各类第三⽅⼤模型 (能⼒增强) 图像创作引擎 ⽂⽣图 AI写真 风格化背景替换线稿⽣图 通⽤场景对⽐ 图像创作引擎已经⽐肩全球领先⽔平 风格能力 构图能力 人物场景 主体描述 本土元素 知名形象 文字能力 logo能力 混元⽂⽣图模型持续优化升级 针对⼈物&场景问题 •吸取⼴告真实感优势 •增加⼈体裁剪优化⼈像布局 草地上长满各⾊野花 针对中⽂细粒度⽣成问题 •优化CLIP细粒度编码能⼒