腾讯云传媒⾏业⼤模型落地实践 叶国宇腾讯云智能高级解决方案架构师 CONTENT⽬录 腾讯⼤模型最新进展腾讯⼤模型在传媒⾏业的落地实践0102 腾讯云智能拥有全球领先的AI研究和产业落地能⼒ 腾讯云智能在计算机视觉、智能语⾳、⾃然语⾔处理、机器学习等领域已取得多项技术突破,持续推动前沿技术的产业落地。下设多个顶级⼈⼯智能实验室。腾讯优图实验室多次在⼈⼯智能国际权威⽐赛中创造世界纪录,腾讯云⼩微、AI LAB等团队协同深耕AI语⾳及语义能⼒,多次在国际国内⽐赛中拔得头筹。共拥有5000+AI相关专利,发表顶会论⽂800+篇。 ⼤模型发展历程 ⼤模型发展历程 模型提升的三个技术路线prompt&RAG&FT ⼤模型在落地应⽤时,容易出现幻觉,⽽且很可能⾏业知识不⾜。 p提⽰⼯程,通过例如few-shot prompt 的⼿段增强输出-快速的提升模型输出遵循性。 pRAG(Retrieval-Augmented Generation )检索增强⽣成-少量的个性知识、快速更新的知识。 腾讯⼤模型最新进展 国内与全球先进⽔平仍有差距,但在快速追赶 参考沙利⽂《2024年中国⼤模型能⼒评测》中国⼤模型均线=15个参评⼤模型均分国际⼤模型均线=Gemini1.0+GPT4+GPT3.5+Claude2 混元vs GPT-4 turbo(腾讯混元团队24年5⽉评测结果,GPT-4 turbo为100%) 腾讯⼤模型:⽴⾜⾃⾝,实战打磨,赋能百业 技术层⾯:腾讯拥有强⼤的算法、算⼒和中⽂数据优势。 落地层⾯:丰富的应⽤产品是⼤模型最好的试炼场。 腾讯内部已有600+业务接⼊混元 在腾讯丰富的⽣态中迭代能⼒ 腾讯⼤模型实现了从基础设施到模型构建的全⾯布局 ⽣⽂:率先探索万亿⼤模型,同时兼顾中⼩模型 1B、3B、7B、13B等不同参数量下的Dense和MoE模型均有布局 ⽣图:混元依托升级架构,测评结果国内领先 作为业内⾸个中⽂原⽣DiT架构,已全⾯开源 中⽂原⽣,更懂中⽂ ✧⽀持1:1、4:3、3:4、16:9、9:16 等多种规格⽀持768 ~ 1280 分辨率图像⽣成 ✧HunYuan-DiT可以灵活地⽀持ControlNet、LoRA、IP-Adapter、Photomaker等SD 社区的插件 ✧⿊⾊的臭⾖腐放在⽩⾊的碗中,上⾯撒有绿⾊和红⾊的辣椒,背景是桌⼦ ⽣视频:4⼤核⼼能⼒,⽣成效果领先 全⾯升级:基于ST-DiT研发下⼀代⽣视频⼯具 ⼀位美丽的年轻⼥⼦,穿着复古的连⾐裙,头戴草帽,站在⼀座城堡前。 粉红⾊牡丹花绽放,延时效果。 风景如画的⼩镇坐落在群⼭之中,⼀座巨⼤的教堂塔在众多建筑中脱颖⽽出。 海浪冲击着海滩上崎岖的悬崖。 ⽣3D:混元在效率与质量上业内领先 腾讯云传媒⾏业⼤模型落地实践 三⼤引擎降低模型应⽤门槛 基于⼤语⾔模型的知识应⽤开发平台 基于⼤模型的AI 图像⽣成与编辑能⼒ ⼤模型知识引擎,激活企业知识,焕新⽣产⼒ 从场景到落地,⼤模型知识引擎需要克服三⼤难题 1.知识获取 2.知识处理 1.垂直场景业务知识更新快 2.企业知识输⼊篇幅长、多样化 3.对⾏业细分场景理解难度⾼ •类型:事实性知识(⽂档)、概念性知识(表格)、程序性知识(画布)•格式:pdf./docx./excel/xmind/html;•排版:图⽂表混排、双排、三排•元素:⼤⼩标题、页眉、页脚、⽔印 -研报解读:数字混淆、数字区间⽐较不准确;-说明书:操作步骤不完整、步骤混淆;-多产品咨询⽐较:表格属性问答、总结、⽐较不准确 -通⽤⼤模型,缺少垂直场景企业级知识的理解-基于通⽤⼤模型Finetune,成本⾼、时效性弱 实际难点总结 ⼤模型场景 ⾏业应⽤的实际业务落地 模型知识引擎,激活企业知识,焕新⽣产⼒ 企业事实性知识 难点:图⽂并茂、排版复杂 图⽚解析遗漏 传统解析 常常包含⽆明显边界的组合图形,且易重叠、错位,极⼤影响模型阅读理解准确率 基于⽂档元素及位置信息,“定制化”进⾏重组和排版 阅读顺序改变 版⾯分析、元素排序⽂字识别、表格识别、公式识别 图、表等关键元素准确识别 OCR⼤模型解析 阅读顺序正确 案例:⼤模型结合多模态技术助⼒川剧⾮遗⽂化传播与保护 通过⼈与⼤模型对话,学习川剧相关知识 利⽤⾃然语⾔对话,检索媒资库中和匹配的川剧⽚段 请介绍⼀下川剧 川剧,俗称川戏,主要流⾏于中国西南地区川渝云贵四省市的汉族地区,是融汇⾼腔、昆曲、胡琴(即⽪黄)、弹戏(即梆⼦)和四川民间灯戏五种声腔艺术⽽成的传统剧种。 我想看变脸 好的,正在帮您查找。 案例:某⽇报基于⼤模型构建国际传播应⽤ 图像创作引擎已经⽐肩全球领先⽔平 混元⽂⽣图模型持续优化升级 通⽤场景对⽐ 针对⼿部畸形问题•注⼊⼿部结构,优化⼿ 针对⼈物&场景问题•吸取⼴告真实感优势 针对认知问题•优化caption模型, 针对中⽂细粒度⽣成问题•优化CLIP细粒度编码能⼒ 部⽣成•多尺⼨训练,完善图⽂匹配度 提升主体输出率•优化CLIP认知能⼒ •增加⼈体裁剪优化⼈像布局 •升级模型为参数,提升能⼒ 哆啦A梦头上戴着⽵蜻蜓在空中飞⾏ CG渲染,仙侠男⼦,⼿持剑,中国风 在树林中的夜晚,⼀个棕⾊头发、绿⾊眼睛的男⼦站在树林⾥。 图像创作引擎:⼴告图⽚⽣成 众测Goodcase率&⼴告主测评采纳率混元明显⾼于MJ ,且混元⽣成更接近⼴告主投放素材的构图和质感 混元⽣成的场景构图、质感、明亮度,更适⽤于⼴告素材 prompt:⼀个⽊屋酒店外观,位于森林中,靠近⼭脉,远景,摄影照⽚。 图像风格化引擎 •将⼀张图⽚转化成对应风格图⽚•⽀持9 种图⽣图风格⽣成•针对⼈像效果重点适配优化,⽣成结果稳定、美观 案例:央视新闻《AI测测你最适合去哪春游》公众号活动 •只需回答三个问题,⽂⽣图将根据⽤户的选择画出专属春游⽬的地 案例:阅⽂集团作家创作辅助图像⽣成 【⽂⽣图】潇湘&作家助⼿p⽤户⽹⽂⾓⾊头像⽣成•基于webui •⽤户可根据提⽰词或图⽣图⽣成⾓⾊的形象图 p⽂插图•基于diffusers⽤户根据⽹⽂描写⽚段进⾏⽣图 【⽂⽣⽂】筑梦岛&作家助⼿p筑梦岛:IP⾓⾊对话p作家助⼿:智创Copolit 视频创作引擎产品矩阵 ⼤模型视频创作引擎,基于腾讯前沿⼤模型等⼀系列能⼒,提供包含视频⽣成、视频转译、⼈脸融合三⼤核⼼产品。⼴泛服务于视频创作领域的泛互、⼴告、教育等重点⾏业和场景。 视频创作引擎:视频转译 视频转译能够⾮常⾃然地,将说话⼈的语⾔翻译成指定语种。翻译后的视频,实现说话⼈⾳⾊与原视频保持⼀致,说话⼈⼝型与⽬标语种匹配的效果。适⽤于短剧出海、视频本地化、跨境电商、语⾔教育等场景。 视频创作引擎:视频⼈脸融合 视频⼈脸融合⽀持将⽤户⼈脸特征转移到模版视频上,⽣成的视频既兼具指定视频中的⼈脸特征,也保持了模板视频中⼈物的姿态、表情、动作等属性。⼴告场景 视频创作引擎:视频风格化 调整输⼊视频画⾯风格,⽀持动漫、动画3D等 动漫风格: 画质细腻光影、服饰纹理、背景细节细腻 丝滑⾃然帧过渡流畅⾃然 ⼈像美化⼤眼、⽪肤增强 高分辨率支持2K分辨率,画质清晰 动画3D风格: 风格丰富梵⾼风格、像素风格等⼗⼏种风格持续上线 视频创作引擎:运动笔刷 视频创作引擎:画布拓展 根据视频画⾯相关性,拓展画⾯区域 相关性强拓展画⾯相关性强,难辨真假 视频理解能够精准理解画⾯景深、物体局部、物体运动属性 ⽀持⾼宽⽐从1:4到4:1的⼤⽐例拓展范围,适⽤于各类场景 案例:北京⼴播电视台破圈创意活动“我的春天,看我的” 腾讯⼈⼯智能,构建离产业最近的AI THANKS!感谢聆听