理旧基,换新羽 ——大模型构筑传媒新质生产力 曾亮技术总监 腾讯云智慧传媒行业中心 面对新事物,人们往往容易高估短期而低估长期。 前者让我们焦虑或者沮丧,后者则让我们忽视和错过它带来的颠覆! 大模型适配与传媒行业落地场景 人类与AI协同的5个模式/阶段 Tools模式L1 ChatBot模式L2 Copilot模式L3 Agent模式L4 Species模式L5 AI 人类 人类 AI AI 人类 AI 人类 设立任务目标 结束工作 结束工作 人类自主结束工作 人类自主结束工作 人类自主结束工作 人类修改调整确认 某(几)个任务AI提供信息和建议 任务拆分 选择工具控制进度 某(几)个流程AI完成初稿 寻找资料确定方法寻找工具控制进度 全权代理 任务拆分选择工具控制进度 设立目标明确结果提供资源 设立任务目标 设立任务目标 设立任务目标 传统软件 传统AI工具初代ChatGPT等 微软Copilot等 类冯诺依曼机器人 GPTs等或者……下一代人/硅基人? 谷歌对通用AI(AGI)能力的分级 初级(Emerging) 要求与不熟练的人类差不多或略胜。对应狭窄AI中的早期专家系统,通用AI中的大型语言模型。 熟练(Competent) 要求超过50%熟练成人的表现。对应狭窄AI中的语音助手等。尚无通用AI达到。 专家(Expert) 要求超过90%熟练成人的表现。对应狭窄AI中的语法检查、图像生成模型等。尚无通用AI达到。 大师(Virtuoso) 要求超过99%熟练成人的表现。对应狭窄AI中的围棋软件AlphaGo等。尚无通用AI达到。 超人(Superhuman) 要求超过100%人类的表现,做到人类根本无法企及的任务。对应狭窄AI中的AlphaFold蛋白结构预测等。 大模型时代的全新升级 •“后面要结合我们的场景,把混元大模型应用到各个场景中,……结合到我们所有的产品里面提升效率。” ——马化腾(2024) •“企业的大模型应用需要综合考虑行业专业性、数据安全、持续迭代和综合成本等因素。基于行业大模型,构建自己的专属模型,也许是企业更优的选项。“ ——汤道生(2023) •“在每个特定场景里100%的解决客户问题,而不是试图找到1个的产品来解决每个场景70%-80%的问题。” ——吴运声 行业化专属化 全面迭代更新AI能力,拥抱大模型 大模型能在专业模型的基础上,极大提升AI 在传媒应用中的价值,产生新的应用场景。 所有的媒体都值得拥有自己的大模型未来每个媒体都将拥有多个自己专属的大模型,这些大模型来自每个媒体自身的数据和积累,并专属化部署。 自有大模型是未来媒体的核心竞争力基于上述专属模型塑造的(智能体)“数字员工”ToG、ToB、ToC提供全新服务。这类大模型 能力,是未来媒体最核心的数字资产和竞争力。 大模型工具的场景化使用案例——腾讯会议小助手 大模型对媒体发展的机遇 通用大模型与传媒垂直领域的结合,将会对产业发展产生真正深远的影响 知识引擎内容创作搜索推荐风控模型 内容交互、知识服务、栏目助手、专家咨询、政策助手、心理咨询、智能助教、培训辅导 …… 访谈提纲、选题助手、文案初稿、新闻综述、分镜脚本、视频合成、稿件插图、广告创意 …… 应用开发 视频标签、跨模态检索、多模态检索、小样本特征、广告投放、用户运营、内容运营 …… 视频审核、文本审校、评论审核、账号安全 …… 精调模型 腾讯云行业大模型 媒体行业内容生成场景能力进展 大模型强大的文字内容生成能力 用户可以通过传入不同的参数控制生成内容的类型,并通过自然语言给模型以内容生成的指令,可以满足多种场景的文本生成需求,包括但不限于文章写作、营销文案、视频脚本、电商文案、纪要整理、翻译等。目前支持以API形式接入。 视频脚本 采访计划 选题参考 文稿生成 新闻综述 评论生成 返回参数 小红书种草 电商文案 通用广告文案 社群营销 智能客服 自由编辑指令 支持多轮输入 支持自由修改 生成文本信息 会议纪要 信息摘要 Prompt构造 智能翻译 采访新闻 API接入 调用简单 快速集成 智能文案创作:一键生成多种风格文本 海量广告素材创作场景 智能化的广告素材创作,提升营销内容创作工作效率。 视频生产——无中生有&有中生有 无中生有:细节、效果、指令遵循有中生有:细节、物理规律的理解 基于内容理解+重组Prompt指令的有中生有 • • 基于海量视频生成报道视频,准确度低,内容风险高 分发渠道不同,受众阶层不同 安全、合规的解决传媒供给侧内容不足与传播的问题 20`` 40`` 60`` • • • 基于原片生成,合法、合规、价值观、观点一致 多种分发渠道,个性化生成,千条千面 快速规避风险,自学习能力,持续改进生成方式 80`` 视频号ID1`小红书ID1`微博ID1`抖音ID1` 视频号ID2`小红书ID2`微博ID2`抖音ID2` 视频号ID3`小红书ID3`微博ID3`抖音ID3` YouTubeID1`FacebookID1`XID1` TiktokID1` 媒体行业内容检索场景能力进展 传统内容检索的限制 文件名、标签和提取文字对于素材的描述方式在完成标注后已经固化下来,而全文检索能够兼容的模糊检索相对有限,如果检索词一旦存在和标注时差异化的表达方式,则无法检索到相关的结果; 检索词 难以精确匹配 已经标注的内容未必能穷举素材的全部要素,如果一旦存在漏标的情况,也无法保证完整召回全部相关素材,容易把珍贵的素材埋没在海量素材库内容; 元数据 存在漏标情况 只能通过标签或文本匹配的次数来推测相似度,无法明确素材和查询语句的关联度,需要花费更多的时间或者增加更多的条件在查询结果中找到最吻合检索目标的素材; 检索结果排序效果一般 标签属于单要素的描述方式,但是在检索过程中,全文检索的理解力仅限于字面匹配,不支持多要素的挖掘,无法挖掘深层关联关系,比如全文检索很难找到意境描述性的目标素材。 无法描述深层次的关联 需要引入新的技术能力来升级检索体验,提高检索效果, 作为基于编目全文检索的必要的补充 跨模态检索的场景和检索流程 “骑在马上挥手的小孩子” 文本理解模型文本向量化编码 查询文本 特征库 素材库 跨模态高维特征匹配 图像语义跨模态向量化编码 检索结果输出 传统的标签检索到自然语言理解的跨模态检索 • • 查询描述受限:仅支持单要素,无法支持精细化描述或者多要素组合描述的匹配 检索召回不全:检索范围仅限于标签,无法召回兼容相近的描述的检索,无法深入 理解多标签的关系 tag:荷叶、荷花、蜻蜓、昆虫、植 物…… 传统的标签检索的瓶颈 query:小荷才露尖尖角,早有蜻蜓立上头 query:荷花 人物形象描述:发型、服装、性别、年龄等 教室里穿着粉色外套的男老师的背影 传统query:教室、老师 video28701:21-0:35 着拐杖坐在公园里 灰色西装的老头拿 传统query:老年人、公园 动作描述:体育动作、日常活动、工作活动等 抱着孩子、穿着传统服饰的女子站在草原上 传统query:草原、合照 video00605:39-05:46 C罗的进球瞬间 传统query:C罗 物体、风景、场景描述:支持多描述的组合 沙尘暴里的天安门 传统query:天安门、合照 video02700:19-01:56 清泉石上流 传统query:溪流 知识引擎推动服务创新 举个例子:腾讯乐享 主题/兴趣社团协会活动组织、主题讨论分享 文化/行政组织公司、部门的信息发布和收集 团队/组织架构知识沉淀、活动组织、团队协作 群组化的社区关系链 K吧K吧 连接人与人 专题刊物 平台知识库K吧主题内容 体系化知识 论坛 轻享 乐问 碎片化知识 连接人与知识 参与者 传播者 见证者 2 3 知识引擎服务示例 1 基底模型通用回答 导入知识文档 增强检索生成的回答 •支持导入word、PDF等格式 •支持对表格、图片等进行解析 用户问题 基于LLM+RAG框架,做深做透全链路能力 1 •8种元素:段落、表格、公式、图标等; •算法能力:版面分析、元素排序 1、图文混排文档 2、结构化表格 3、流程图4、多列混排文档 2 •覆盖论文、杂志、说明书、试卷、海报、PPT... 1 知识解析 2 知识切分 •OCR解析大模型准确率提升25% •通过长文本大模型对文本进行多级语义拆分(标题、副标题、段落等) 4 模型阅读理解&答案生成 3 知识检索 •深入上百个客户的应用场景,亿级行业数据针对性训练 •Embedding模型从512字提升到4k,支持多套检索策略 •业内首个的长文本切分大模型,比传统切分方式准确率提升x% •将OCR识别的标题提供给切分模型,进行多级切分,避免语义截断,提升检索及阅读理解准确率 场景 能力 1.在国际知名的C-MTEB榜单上,模型在8个中文任务上可以达到效果最优 2.使用向量关键词混合检索策略、表格文字混合检索策略等,提升模型在多场景下 的应对能力和鲁棒性 端到端问答 数字问答 操作步骤问答 “债券增强1902理财产品我持有了 190天,赎回手续费是多少?” “智能钥匙怎么使用?” 表格问答 推理比较 “我想在南山西丽街道组每月每平方60“标准版和旗舰版差多少钱?” 元左右的办公场地,有什么推荐” 模型名 最大长度 测试集准确率 腾讯云智能 73.09 OpenAI 8192 52.00 友商Z 512 70.54 友商A 512 72.49 友商W 512 63.66 大模型RAG在媒体的应用场景 01 内容交互 阅读理解,用户可以对发布的报道提出问题,要求摘要总结,找到和我观点一致的受众等。 02 栏目服务 学习既往王牌栏目的内容,接受 观众对话式咨询,提升栏目关注度,同时拉动私域流量。 03 专业服务 财经类节目,接受财经类问答, 接受输入财报等PDF,输出简报或总结分析。 04 本地服务 接受本地观众或外地游客的相关 资讯,提供美食、旅行、酒店、特产、外卖等服务。 05 政策咨询 接受本地入学、购房、社保等各类政策咨询服务,拉动私域流量 06 智能数字人IP 外挂大模型RAG的数字人,多轮 交互、强意图理解,不再“不知道”和“乱答”。 07 四史百科问答 提供《党史》、《新中国史》、 《改革开放史》、《社会主义发展史》等百科问答。 08 对内服务 输入单位政策文件、技术资料等,接受员工问答型资讯。 上车! 关注智慧传媒公众号