行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

腾讯云传媒行业大模型落地实践

2024-08-26 腾讯 Cc

腾讯云传媒行业大模型落地实践

腾讯云智能AI能力

腾讯云智能在计算机视觉、智能语音、自然语言处理、机器学习等领域取得多项技术突破，拥有全球领先的AI研究和产业落地能力，下设多个顶级人工智能实验室，共拥有5000+AI相关专利，发表顶会论文800+篇。

大模型发展历程与技术路线

大模型发展经历了模型提升的三个技术路线：Prompt、RAG（Retrieval-Augmented Generation）、FT（Fine-tuning）。Prompt通过few-shot等手段提升模型输出遵循性；RAG通过检索增强生成，快速更新知识；FT通过少量个性知识提升模型能力。

腾讯大模型最新进展

腾讯大模型在国内外评测中表现优异，混元模型在多项评测中领先。腾讯大模型立足自身，实战打磨，赋能百业，拥有强大的算法、算力和中数数据优势，丰富的应用产品是其最好的试炼场。腾讯内部已有600+业务接入混元。

腾讯大模型技术布局

腾讯大模型实现了从基础设施到模型构建的全面布局，包括：

生文：率先探索万亿大模型，兼顾中小模型，布局1B、3B、7B、13B等不同参数量下的Dense和MoE模型。
生图：混元依托升级架构，测评结果国内领先，作为业内首个中文原生DiT架构，已全面开源。
生视频：基于ST-DiT研发下一代生视频工具，提供视频生成、视频转译、人脸融合等产品。
生3D：混元在效率与质量上业内领先。

大模型在传媒行业的落地实践

腾讯云传媒行业大模型落地实践基于三大引擎降低模型应用门槛：

大模型知识引擎：激活企业知识，焕新生产力。
基于大语言模型的知识应用开发平台。
基于大模型的AI图像生成与编辑能力。

大模型场景应用难点

大模型在场景应用中面临三大难题：

知识获取：垂直场景业务知识更新快，企业知识输入篇幅长、多样化，对行业细分场景理解难度高。
知识处理：文档类型复杂，包含事实性知识、概念性知识、程序性知识，格式多样，排版复杂。
知识应用：通用大模型缺少垂直场景企业级知识的理解，基于通用大模型Finetune成本高、时效性弱。

大模型知识引擎解决方案

大模型知识引擎通过以下方式解决上述难题：

文档解析：基于文档元素及位置信息，进行重组和排版，准确识别图、表等关键元素，解决图文并茂、排版复杂的问题。
多模态技术：结合OCR大模型解析，确保阅读顺序正确，提升模型阅读理解准确率。

案例分析

川剧非遗文化传播与保护：通过人与大模型对话，学习川剧相关知识，利用自然语言对话检索媒资库中匹配的川剧片段。
某日报基于大模型构建国际传播应用：图像创作引擎已比肩全球领先水平，混元文生图模型持续优化升级。
央视新闻《AI测测你最适合去哪春游》：用户只需回答三个问题，文生图将根据用户的选择画出专属春游目的地。
阅文集团作家创作辅助图像生成：文生图和文生文功能帮助用户生成角色形象图和根据网文描写生成插图。
北京广播电视台破圈创意活动“我的春天，看我的”：利用大模型进行视频创作，实现视频风格化、运动笔刷、画布拓展等功能。

研究结论

腾讯云大模型在传媒行业展现出强大的应用能力，通过三大引擎降低模型应用门槛，解决知识获取、处理和应用中的难题，助力企业知识激活和生产力焕新，已在多个场景实现落地应用，效果显著。

腾讯云传媒⾏业⼤模型落地实践叶国宇腾讯云智能高级解决方案架构师 CONTENT⽬录腾讯⼤模型最新进展腾讯⼤模型在传媒⾏业的落地实践0102 腾讯云智能拥有全球领先的AI研究和产业落地能⼒腾讯云智能在计算机视觉、智能语⾳、⾃然语⾔处理、机器学习等领域已取得多项技术突破，持续推动前沿技术的产业落地。下设多个顶级⼈⼯智能实验室。腾讯优图实验室多次在⼈⼯智能国际权威⽐赛中创造世界纪录，腾讯云⼩微、AILAB等团队协同深耕AI语⾳及语义能⼒，多次在国际国内⽐赛中拔得头筹。共拥有5000+AI相关专利，发表顶会论⽂800+篇。⼤模型发展历程⼤模型发展历程模型提升的三个技术路线prompt&RAG&FT ⼤模型在落地应⽤时，容易出现幻觉，⽽且很可能⾏业知识不⾜。 p提⽰⼯程，通过例如few-shotprompt的⼿段增强输出-快速的提升模型输出遵循性。 pRAG（Retrieval-AugmentedGeneration）检索增强⽣成-少量的个性知识、快速更新的知识。腾讯⼤模型最新进展国内与全球先进⽔平仍有差距，但在快速追赶参考沙利⽂《2024年中国⼤模型能⼒评测》中国⼤模型均线=15个参评⼤模型均分国际⼤模型均线=Gemini1.0+GPT4+GPT3.5+Claude2 混元vsGPT-4turbo（腾讯混元团队24年5⽉评测结果，GPT-4turbo为100%）腾讯⼤模型：⽴⾜⾃⾝，实战打磨，赋能百业技术层⾯：腾讯拥有强⼤的算法、算⼒和中⽂数据优势。落地层⾯：丰富的应⽤产品是⼤模型最好的试炼场。腾讯内部已有600+业务接⼊混元在腾讯丰富的⽣态中迭代能⼒腾讯⼤模型实现了从基础设施到模型构建的全⾯布局⽣⽂：率先探索万亿⼤模型，同时兼顾中⼩模型 1B、3B、7B、13B等不同参数量下的Dense和MoE模型均有布局⽣图：混元依托升级架构，测评结果国内领先作为业内⾸个中⽂原⽣DiT架构，已全⾯开源中⽂原⽣，更懂中⽂ ✧⽀持1:1、4:3、3:4、16:9、9:16等多种规格⽀持768~1280分辨率图像⽣成 ✧HunYuan-DiT可以灵活地⽀持ControlNet、LoRA、IP-Adapter、Photomaker等SD社区的插件 ✧⿊⾊的臭⾖腐放在⽩⾊的碗中，上⾯撒有绿⾊和红⾊的辣椒，背景是桌⼦⽣视频：4⼤核⼼能⼒，⽣成效果领先全⾯升级：基于ST-DiT研发下⼀代⽣视频⼯具⼀位美丽的年轻⼥⼦，穿着复古的连⾐裙，头戴草帽，站在⼀座城堡前。粉红⾊牡丹花绽放，延时效果。风景如画的⼩镇坐落在群⼭之中，⼀座巨⼤的教堂塔在众多建筑中脱颖⽽出。海浪冲击着海滩上崎岖的悬崖。⽣3D：混元在效率与质量上业内领先腾讯云传媒⾏业⼤模型落地实践三⼤引擎降低模型应⽤门槛基于⼤语⾔模型的知识应⽤开发平台基于⼤模型的AI图像⽣成与编辑能⼒⼤模型知识引擎，激活企业知识，焕新⽣产⼒从场景到落地，⼤模型知识引擎需要克服三⼤难题 1.知识获取 2.知识处理 1.垂直场景业务知识更新快 2.企业知识输⼊篇幅长、多样化 3.对⾏业细分场景理解难度⾼ •类型：事实性知识（⽂档）、概念性知识（表格）、程序性知识（画布）•格式：pdf./docx./excel/xmind/html；•排版：图⽂表混排、双排、三排•元素：⼤⼩标题、页眉、页脚、⽔印 -研报解读：数字混淆、数字区间⽐较不准确；-说明书：操作步骤不完整、步骤混淆；-多产品咨询⽐较：表格属性问答、总结、⽐较不准确 -通⽤⼤模型，缺少垂直场景企业级知识的理解-基于通⽤⼤模型Finetune，成本⾼、时效性弱实际难点总结⼤模型场景⾏业应⽤的实际业务落地模型知识引擎，激活企业知识，焕新⽣产⼒企业事实性知识难点：图⽂并茂、排版复杂图⽚解析遗漏传统解析常常包含⽆明显边界的组合图形，且易重叠、错位，极⼤影响模型阅读理解准确率基于⽂档元素及位置信息，“定制化”进⾏重组和排版阅读顺序改变版⾯分析、元素排序⽂字识别、表格识别、公式识别图、表等关键元素准确识别 OCR⼤模型解析阅读顺序正确案例：⼤模型结合多模态技术助⼒川剧⾮遗⽂化传播与保护通过⼈与⼤模型对话，学习川剧相关知识利⽤⾃然语⾔对话，检索媒资库中和匹配的川剧⽚段请介绍⼀下川剧川剧，俗称川戏，主要流⾏于中国西南地区川渝云贵四省市的汉族地区，是融汇⾼腔、昆曲、胡琴(即⽪黄)、弹戏(即梆⼦)和四川民间灯戏五种声腔艺术⽽成的传统剧种。我想看变脸好的，正在帮您查找。案例：某⽇报基于⼤模型构建国际传播应⽤图像创作引擎已经⽐肩全球领先⽔平混元⽂⽣图模型持续优化升级通⽤场景对⽐针对⼿部畸形问题•注⼊⼿部结构，优化⼿针对⼈物&场景问题•吸取⼴告真实感优势针对认知问题•优化caption模型，针对中⽂细粒度⽣成问题•优化CLIP细粒度编码能⼒部⽣成•多尺⼨训练，完善图⽂匹配度提升主体输出率•优化CLIP认知能⼒ •增加⼈体裁剪优化⼈像布局 •升级模型为参数，提升能⼒哆啦A梦头上戴着⽵蜻蜓在空中飞⾏ CG渲染，仙侠男⼦，⼿持剑，中国风在树林中的夜晚，⼀个棕⾊头发、绿⾊眼睛的男⼦站在树林⾥。图像创作引擎：⼴告图⽚⽣成众测Goodcase率&⼴告主测评采纳率混元明显⾼于MJ，且混元⽣成更接近⼴告主投放素材的构图和质感混元⽣成的场景构图、质感、明亮度，更适⽤于⼴告素材 prompt：⼀个⽊屋酒店外观，位于森林中，靠近⼭脉，远景，摄影照⽚。图像风格化引擎 •将⼀张图⽚转化成对应风格图⽚•⽀持9种图⽣图风格⽣成•针对⼈像效果重点适配优化，⽣成结果稳定、美观案例：央视新闻《AI测测你最适合去哪春游》公众号活动 •只需回答三个问题，⽂⽣图将根据⽤户的选择画出专属春游⽬的地案例：阅⽂集团作家创作辅助图像⽣成【⽂⽣图】潇湘&作家助⼿p⽤户⽹⽂⾓⾊头像⽣成•基于webui •⽤户可根据提⽰词或图⽣图⽣成⾓⾊的形象图 p⽂插图•基于diffusers⽤户根据⽹⽂描写⽚段进⾏⽣图【⽂⽣⽂】筑梦岛&作家助⼿p筑梦岛：IP⾓⾊对话p作家助⼿：智创Copolit 视频创作引擎产品矩阵⼤模型视频创作引擎，基于腾讯前沿⼤模型等⼀系列能⼒，提供包含视频⽣成、视频转译、⼈脸融合三⼤核⼼产品。⼴泛服务于视频创作领域的泛互、⼴告、教育等重点⾏业和场景。视频创作引擎：视频转译视频转译能够⾮常⾃然地，将说话⼈的语⾔翻译成指定语种。翻译后的视频，实现说话⼈⾳⾊与原视频保持⼀致，说话⼈⼝型与⽬标语种匹配的效果。适⽤于短剧出海、视频本地化、跨境电商、语⾔教育等场景。视频创作引擎：视频⼈脸融合视频⼈脸融合⽀持将⽤户⼈脸特征转移到模版视频上，⽣成的视频既兼具指定视频中的⼈脸特征，也保持了模板视频中⼈物的姿态、表情、动作等属性。⼴告场景视频创作引擎：视频风格化调整输⼊视频画⾯风格，⽀持动漫、动画3D等动漫风格：画质细腻光影、服饰纹理、背景细节细腻丝滑⾃然帧过渡流畅⾃然⼈像美化⼤眼、⽪肤增强高分辨率支持2K分辨率，画质清晰动画3D风格：风格丰富梵⾼风格、像素风格等⼗⼏种风格持续上线视频创作引擎：运动笔刷视频创作引擎：画布拓展根据视频画⾯相关性，拓展画⾯区域相关性强拓展画⾯相关性强，难辨真假视频理解能够精准理解画⾯景深、物体局部、物体运动属性⽀持⾼宽⽐从1:4到4:1的⼤⽐例拓展范围，适⽤于各类场景案例：北京⼴播电视台破圈创意活动“我的春天，看我的” 腾讯⼈⼯智能，构建离产业最近的AI THANKS！感谢聆听

点击免费查看完整报告

腾讯云传媒行业大模型落地实践