大模型与大数据:双向赋能 “WeData大数据开发治理+AI”:智能化升级 主讲人:谭杰轩 大数据开发治理平台“WeData+AI”:智能化升级 03 AIforData 02 DataforAI 01 大模型与大数据 01 大模型与大数据 机遇与挑战 大模型的机遇和挑战 机遇 医疗健康教育辅导 挑战 信息检索 01 02 数据不一致 。。。 03 数据安全问题 04 风险评估 智能对话 “幻觉”问题 大模型 数据多样性不足 内容生产 高质量训练数据是大模型发展的基础 ——信通院《大模型治理蓝皮书》 Data+AI“双轮驱动”,加速企业数据价值释放 大数据+大模型 数据链路01 01NL2SQL 相互驱动与共融 一方面利用AI技术加速企业专属的数据资产的构建,同时这些数据资产又为模型训练提 元数据02 数据质量03 Data 企业专属数据资产 DataforAI AIforData AI AI智能辅助 02SQL检查 03NL数据检索 供了高质量的数据。二者相辅相成,加速企 业的数据价值释放 数据安全04 WeData大数据开发治理平台 04NL数据安全 数据开发治理平台“WeData+AI”:智能化升级 WeData是腾讯云推出的一站式数据开发治理平台,包含数据集成、开发、测试、运维的全链路DataOps数据开发能力,以及数据建模、数据质量、 数据安全、数据资产等一系列数据治理和数据运营能力,帮助企业在数据构建和应用的过程中实现降本增效,数据价值最大化。 产品架构 已持续为数百家企业客户基于大数据进行数字化转型 02 DataforAI 覆盖数据全生命周期,保障数据质量与安全 DataforAI:覆盖数据全生命周期,为企业打造专属数据资产 01020304 一站式大数据+AI 大模型精调和知 识库构建 数据质量提升数据安全保障 一站式完成从业务需求到大数据加工清洗,再到模型服务。 整合混元及开源能力,提供模型微调和企业专属知识库。 通过事前,事中,事后数据治理,为企业提供高质量数据资产。 提供数据分类分级,对数据进行权限管控,脱敏保护和安全审计。 大数据+AI数据链路整合 业务人员 业务需求数据建模数据集成 数据服务 数据资产 数据开发 数据工程师 数据科学家 模型训练模型调参模型服务 应用 大数据+AI数据链路整合 支持notebook数据探索 集成JupyterNotebook工具 支持轻量的模型训练和增强分析 机器学习节点 与腾讯云机器学习平台(Ti-One)集成,支持模型训练任务 支持资源配置,脚本编写和运行调 试,支持训练任务编写 统一调度编排 统一画布,快捷配置数据流程 大数据清洗加工任务与机器学习任务数据模型任务关联 数据加工任务与notebook任务关联 大模型精调和知识库(大模型应用场景) 在泛互,金融等有一些实际场景需要,更多需要针对行业的精调和RAG能力在知识库的快速搭建,结合结构化/非结构化数据,构建向量化存储,提 升大模型在行业内的问答准确率。 Finetuning(模型微调) 可以基于混元和开源微调框架为用户提供多种主要 LLM的FineTuning(微调)服务 面向的客户主要为算法工程师,要求对模型有一定 的算法基础,同时能够提供模型的训练资源 知识库解决方案 可以基于开源本地知识库技术为用户提供快速的知识库开发,可以显著提高效率 面向客户为对大模型有使用经验和认知的用户 可以提供基于排队的免费推理资源用于用户快速进行知识库开发。 数据治理:数据质量保障 覆盖数据全生命周期,从事前,事中到事后的数据治理过程,解决数据不规范,不一致,不准确的问题,为大模型提供高质量的数据。 事前事中事后 制定数据标准,制定数据规划,设计数据模型,配置多维度数据质量规则 实时数据质量监控,管控数据加工链路,数据质量异常检测与处理 数据质量问题处理,数据质量报告与分析,数据资产评分结果展示与持续运营 事前:数据规范化与落标检测 事中:数据质量监控&检测 通过灵活的规则配置,为数据接入、加工到消费的全生命周期各阶段提供数据质量稽核能力 全链路的数据质量监测 丰富多元的规则配置为数据质量保驾护航 准确性 内置6大类质量规则模版 唯一性完整性一致性 及时性 有效性 事后:数据质量评价体系与持续运营 执行治理策略 不同人员可根据发现的问题进行不同维度数据治理手段。 执行评估 数据健康评估 通过平台上定义的治理维度综合分析当前的数据治理健康分。从而宏观上判断是否需要进行数据治理。 驱动组织和人员组织定义 数据管理者可以将问题晾晒,推送报告等多种方式驱动组织和人 员进行数据治理。问题采集 发现问题 根据不同维度的数据,发现不同业务或不同数据的健康情况,从 而找到数据问题。 定义治理维度 资产健康分 规范分 质量分 成本分 应用分 安全分 可扩展的方式,在平台中定义了治理健康分的组成维度,如成本分,质量分,安全分等。 表命名规范 SLA达标 存储成本 热度值 责任人合规 字段落标 DDL稳定性 计算成本 共享热度 表安全等级 注释规范 质量监控 OLAP成本 下游依赖 敏感识别 DQC监控覆盖 应用贡献度 脱敏加密授权合理 采集治理维度数据 通过元数据采集将实际的业务数据,从定义的维度进行数据采集汇总。 数据资产管理:助力企业“用”好数,“管”好数 数据资产 在数据资产管理中,提供了数据的生命周期管理,可以帮助AI管理并处理过期的数据,而成本优化可以帮助企业降低数据存储和计算成本,而数据血缘则可以帮助AI分析过程中获得更准确的数据上下文关系,提高准确率。 资产概览&检索:查看全局数据资产情况&快速定位 成本优化:数据存储和计算任务消耗洞察,优化成本 有效管理数据生命周期 全链路数据血缘 全方面的数据安全防护 大数据引擎权限管控:申请/审批/授权/交还 数据分级分类:满足合规要求 管 控 分级 分类 权限 静/动态脱敏 脱敏防护 安全审计 操作和访问日志审计 03 AIforData 提升数据开发治理效率,提高用户体验 提升数据开发治理效率,提高用户体验 全新升级智能化能力 WeData+AI智能助手 血缘分析能力增强 数据资产智能化数据安全智能化 基于混元大模型,增加数据开发智能助手,提升用户开发效率。 基于大模型,提升血缘分析通用能力,稳定性和准确率。 提升数据资产分类效率,优化用户体验。 提供更高效稳定的数据安全识别和风险监测能力。 WeData+AI智能助手:提升数据开发效率 智能助手 基于混元大模型,提供SQL排错、SQL解释等功能,帮助用户提升SQL开发的效率。 90% SQL排错 帮助用户快速找到错误,并修复错误(90%准确性) SQL解释 帮助用户快速理解SQL代码逻辑 SQL注释 根据用户的SQL和元数据, 自动生成注释 血缘分析能力增强 SQL解析准确率更高,更稳定 相对过去开源SQL解析技术准确率更高,解析结果不会因为一些方言和函数而运行失败。 传统方案稳定性差,解析经常报错 新技术解析更稳定,兼容性更强 复杂SQL混元 提升血缘解析通用能力 不仅支持SQL脚本解析,无论什么数据源类型,还是其他类型脚本都可以解析血缘,如Shell、python,DSL,QSL等等 全局血缘异常修复 血缘经常都会出现异常,大模型可以轻松帮助处理这些问题,比如处理运行失效节点,修复受损数据等等 血缘节点信息缺失基于数据模型&元数据修改节点基础信息 数据资产智能化 NL数据资产检索 提高检索效率:用户只需输入自然语言的查询问题,系统可以快速地返回相应的结果,大大提高了检索效率。 提升检索准确性:大语言模型具有强大的语义理解和推理能力,可以更好地理解用户的查询意图,提高检索结果的准确性。 提供更好的用户体验:用户只需输入自然语言的查询问题,无需了解复杂的查询语法和操作步骤,大大提高了用户的使用体验。 数据资产智能辅助盘点 数据源 基础信息完善度 管理元数据完善度 元数据管理 业务信息完善度 资产评估体系 数据资产 元数据 多模态实体提取 元数据信息补齐 数据安全智能化 基于AI技术的敏感数据识别及异常风险研判AI双引擎综合判断,自动适配用户操作特征,误报率/漏报率双低 传统引擎检测能力存在局限 部分场景误报率较高,例如密码检测对象难以穷尽,例如公司名称检测规则难以创建,例如姓名 实践效果 标注训练数据,训练敏感数据识别AI引擎数据驱动,覆盖复杂和未知场景,突破传统规则束缚业务实际运营准确率98.57%每日持续运营中 分类分级方案A 个人金融信息规则集 身份证 手机号 敏感数据识别引擎 个人金融信息保护 信用卡 姓名 邮箱 … 个人身份信息 金融数据安全分级指南 自定义合规模板 分类分级方案BGDPR规则集 身份证手机号 信用卡 自定义 邮箱 … 请求流量镜像自动发现API手动添加APIAPI发现引擎 数据安全智能化 布 分 果 结 计 审 险 风 录 目 产 资 据 数 感 敏 盘 大 布 分 据 数 感 敏 自动扫描资产手动添加资产元数据管理资产域分权 智能构建数据安全资产:理清数据安全问题 THANKS