行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

3 腾讯游戏-AI时代的湖仓数据体系建设

文化传媒 2024-12-17 StarRocks 2024 年度技术峰会记忆待续

腾讯游戏数据工程挑战与AI驱动湖仓资产体系优化

腾讯游戏数据发展历程

2003-2007年：以休闲品类进入市场，处于基础功能完善阶段。
2015年至今：产业链布局全面出海，数据需求持续增长。

游戏业务对数据的需求

年均数据挖掘/提取类需求达数万个，数据挖掘是问题归因、分析决策、干预闭环的关键。

如何更好地服务业务

AI需解决从业务需求到数据结果的完整环节，建立AI环境下的工程平台和资产体系。

基于多智能体的需求构造

提示词（需求）的完备度与结果准确性

好提示词特点：完整上下文解释、隐性知识、行业know-how、恰当示例、逐步思考、明确预期结果。

基于需求标准的人与AI需求对齐

需求标准：筛选、问题、结果三段式提问，及行业知识。
需求Agent功能：匹配需求案例和行业知识，整理改写为标准格式。

根据复杂度进行需求分解

复杂度与准确率关系：
- 复杂度≤4：准确率>90%
- 复杂度5-7：准确率>60%
- 复杂度≥8：准确率<25%
- 复杂度≥15：正确率趋近于0
复杂度计算：Where个数+Join个数+Union个数+Group By个数+OrderBy个数+Distinct个数+高阶函数个数。

AI驱动的湖仓资产体系

LLM在SQL生成的能力瓶颈

BIRD数据集：包含12,751个独特问题SQL对，覆盖95个数据库和37个专业领域。
Spider数据集：包含10,181个问题和5,693个复杂SQL查询，涉及200个数据库和138个领域。

如何提高SQL准确率

通过需求分解、领域模型、智能加速等技术手段提升准确率。

构建“人和AI”都能理解的资产

建立业务需求、行业知识、数据结构之间的资产纽带，通过领域模型沉淀和推荐。

领域模型技术架构

分层存储：冷、热、实时三级存储，满足不同层级性能需求。

新一代AI资产基建-湖仓一体

湖仓一体化优势：
- 数据分析直接使用明细数据，支持实时链路接入。
- 自助化分析，看板基于明细数据实时计算。
- 分级存储，按时间或重要程度优化性价比。

基于StarRocks构建湖仓一体解决方案

核心特性：
- 独立无状态的ComputeNode支持灵活扩展。
- 存储层在对象存储上灵活扩展。
- 支持热存储和冷存储查询。
- 数据下沉机制实现冷热存储转储。

智能动态加速

StarRocks物化视图：基于LLM实现智能动态加速。

基于LLM的数据工程平台

多智能体架构，人与AI高度协同工作

Agent架构：将Job分解为Task，AI完成部分Task，人AI协同完成需求协同、验收协同。
实时交互：各节点Agent与用户实时交互，及时感知问题并修正。

分层持续运营，AI持续进化

需求规范：需求模板定义、需求质量识别、需求格式标准、需求分类。
行业知识：沉淀派生指标计算逻辑、特殊逻辑说明。
特征资产：沉淀非通用领域维度枚举值、派生维度计算规则。
库表资产：完善元数据管理，优化计算效率。
资产平台：支持多种资产初始化方式，支持SR、MySQL、HIVE等。
工程平台：支持个性化prompt配置、API调用。

多租户、可配置、安全的工程平台

核心能力：
- 稳定可控的需求构造。
- 智能动态的计算加速。
- AI可理解的资产体系。
- 可持续优化的运营平台。

系统演示Demo

Udata产品演示：大模型时代的智能数据助手。

欢迎联系交流

刘岩腾讯游戏数据技术负责人腾讯游戏数据工程的挑战基于多智能体的需求构造AI驱动的湖仓资产体系可持续优化的工程平台系统演示腾讯游戏数据工程的挑战 1.1腾讯游戏数据发展—紧跟业务发展，以业务需求为核心腾讯游戏以休闲品类进入市场2003~2007 产业链布局和全面出海2015~Now 1.0基础功能完善阶段 1.2游戏业务对数据的需求 ➢现存游戏业务的数据挖掘/提取类需求数万个/年，数据挖掘是问题归因、分析决策、干预闭环的关键。 1.3如何更好地服务业务？ ➢AI要解决的问题不是仅仅是写SQL，而是从业务需求到数据结果的各个环节，需要建立AI环境下的工程平台和资产体系。基于多智能体的需求构造 2.1提示词（需求）的完备度与结果准确性 “好”提示词的特点： ➢完整的上下文解释➢隐性知识➢行业know-how➢恰当的示例➢逐步思考➢明确的预期结果 2.2基于“需求标准”的人与AI需求对齐一个完备的SQL需求包括：“筛选”、“问题”、“结果”三段式提问，及“行业知识” 需求标准统计：玩家数2024.1.1-2024.2.2期间XX条件的玩家每个自然周不同周活跃天数输出：统计周、周活跃天数、玩家数通过需求Agent，匹配需求案例和行业知识，对进行需求整理与改写，改写成标准的需求格式 2.3根据复杂度进行需求分解 ➢把复杂需求分解成简单的子需求，降低AI生成难度，通过工程化方式组合成最终结果，确保稳定可控的交付质量。根据腾讯游戏内部实际应用统计： 1.需求复杂度小于等于4准确率>90%，5至7准确率>60%，大于等于8准确率<25%，复杂度大于等于15时正确率趋近于0 2.需求复杂度=Where个数+ Join个数+ Union个数+ Group By个数+ Order By个数+ Distinct个数+开窗/json等高阶函数个数 AI驱动的湖仓资产体系 3.1LLM在SQL生成的能力瓶颈 BIRD（BIgBench forLaRge-scaleDatabase Grounded Text-to-SQL Evaluation）代表了一个开创性的跨域数据集，用于检查广泛的数据库内容对文本到SQL解析的影响。BIRD包含超过12,751个独特的问题SQL对、95个大型数据库，总大小为33.4GB。它还涵盖了区块链、曲棍球、医疗保健和教育等超过37个专业领域。 Spider是一个由11名耶鲁大学学生注释的大规模复杂、跨领域语义解析和文本到SQL数据集。它由10,181个问题和5,693个独特的复杂SQL查询组成，涉及200个数据库以及覆盖138个不同领域的多个表。https://github.com/taoyds/spider https://bird-bench.github.io/ 3.2如何提高SQL准确率？ 3.4构建“人和AI”都能理解的资产 ➢建立从业务需求、行业知识、数据结构之间的资产纽带，通过领域模型进行沉淀和推荐，确保资产能被AI理解和使用 3.5领域模型技术架构 3.6新一代AI资产基建-湖仓一体 ➢通过湖仓一体的技术架构，最终数据分析直接使用明细数据（非传统结果数据）而不用考虑性能问题，配合实时链路接入，让业务人员可以使用实时明细数据做业务洞察分析。分析自助化用户的看板基于明细数据实时计算和汇总，能够支持进一步的数据挖掘和探索分析，快速洞察业务增长背后的深层次原因。湖仓一体化分冷，热，实时三级存储，满足实时与性能从低到高不同层级提速要求，可以将不同数据按时间或重要程度，分级提供最优性价比。链路实时化减少原有开发过程中的数据重跑检验过程；数据源（资产）变化时看板自动更新，无需等待。 3.7基于StarRocks构建湖仓一体解决方案 ➢独立无状态的ComputeNode支持灵活的计算扩展。➢存储层可以在对象存储上进行灵活的资源扩展。➢ComputeNode支持热存储（BE）和冷存储（对象存储）查询。➢通过数据下沉机制，可以实现数据在冷热存储的转储 3.8智能动态加速 3.9智能动态加速–StarRocks物化视图基于LLM的数据工程平台 4.1多智能体架构，人与AI高度协同工作 ➢使用Agent多智能体架构，将一个Job（工作）分解成若干的Task（任务），在某些Task上由AI完成，某些Task人与AI协同完成（需求协同、验收协同），覆盖从业务需求到数据交付的全链路，各节点Agent可与用户实时交互，及时感知问题并进行干预和修正，确保系统的可持续优化。 4.2分层持续运营，AI持续进化需求规范需求模版 •需求模版定义（需求类型、匹配推荐）•需求质量识别（需求判断、缺失项说明） •需求格式标准（时间周期、逻辑、输出….）•需求分类（思维模式、复杂度、需求标签）行业知识特征资产库表资产通过特征资产优化匹配准确率通过知识沉淀辅助逻辑拆分通过库表资产优化计算效率 •沉淀派生指标计算逻辑、特殊逻辑说明；•沉淀非通用领域的维度枚举值、派生维度的计算规则； •完善库表元数据管理，包括数据标准化、分层、打标、表/字段描述；•根据数据资产的热度进行数据表的物化、湖仓沉降操作； •特征资产的增删改查；•根据特征相似度识别配置特征同义词；•配置个人特征向公共公共特征转化；资产平台工程平台模型平台 •支持多种资产初始化方式•支持SR、MySQL、HIVE等 •支持个性化prompt配置•支持个性化API调用 4.3多租户、可配置、安全的工程平台 4.4平台的核心能力稳定可控的需求构造智能动态的计算加速 AI可理解的资产体系可持续优化的运营平台系统演示Demo Udata产品演示 5.2腾讯游戏数据团队内部的最佳实践：UData 大模型时代的智能数据助手 5.3相关书籍《大模型实战：AI驱动下的数据体系》腾讯游戏数据团队编著 5.4欢迎联系交流感谢观看！ Thank you!

点击免费查看完整报告

3 腾讯游戏-AI时代的湖仓数据体系建设

腾讯游戏数据工程挑战与AI驱动湖仓资产体系优化

腾讯游戏数据发展历程

游戏业务对数据的需求

如何更好地服务业务

基于多智能体的需求构造

提示词（需求）的完备度与结果准确性

基于需求标准的人与AI需求对齐

根据复杂度进行需求分解

AI驱动的湖仓资产体系

LLM在SQL生成的能力瓶颈

如何提高SQL准确率

构建“人和AI”都能理解的资产

领域模型技术架构

新一代AI资产基建-湖仓一体

基于StarRocks构建湖仓一体解决方案

智能动态加速

基于LLM的数据工程平台

多智能体架构，人与AI高度协同工作

分层持续运营，AI持续进化

多租户、可配置、安全的工程平台

系统演示Demo

相关书籍

欢迎联系交流

你可能感兴趣

数据湖仓分析与AI：为AI新时代设计企业分析体系

王成栋- 超越数据中台 ——“慢”增长时代的企业数据体系建设

3 亚马逊云科技-构建生成式 AI 时代的数据基座.pdf

【风口研报·洞察】财报季如何筛选2、3季度具备超额收益的个股；政治局会议首次强调该领域建设，国内外市场均量利齐升，这家公司掌握“一带一路”稀缺渠道与运营体系

医药行业周报：关注后疫情时代公共卫生体系的建设

计算机应用行业：中美科技之争从底层技术向信息数据扩散，新一代AI标准体系建设指南发布

四川航空基于SelectDB的湖仓一体大数据分析引擎建设

Iceberg 在湖仓建设的若干实践

2026主权时代的AI基础设施白皮书：数字大使馆建设需求、发展战略与可信框架

关于全面推进城市运行综合管理中心建设，加快构建城市运行“一网统管”体系，打造数据驱动“智能静安”的实施意见