AI智能总结
“WeData大数据开发治理+AI”: 谭杰轩主讲人: 大数据开发治理平台“WeData+AI”:智能化升级 03 01大模型与大数据机遇与挑战 Data+AI“双轮驱动”,加速企业数据价值释放 大数据+大模型相互驱动与共融 一方面利用AI技术加速企业专属的数据资产的构建,同时这些数据资产又为模型训练提供了高质量的数据。二者相辅相成,加速企业的数据价值释放 数据开发治理平台“WeData +AI”:智能化升级 WeData是腾讯云推出的一站式数据开发治理平台,包含数据集成、开发、测试、运维的全链路DataOps数据开发能力,以及数据建模、数据质量、数据安全、数据资产等一系列数据治理和数据运营能力,帮助企业在数据构建和应用的过程中实现降本增效,数据价值最大化。 DataforAI 覆盖数据全生命周期,保障数据质量与安全 DataforAI:覆盖数据全生命周期,为企业打造专属数据资产 大模型精调和知识库构建 数据质量提升 数据安全保障 一站式大数据+AI 整合混元及开源能力,提供模型微调和企业专属知识库。 一站式完成从业务需求到大数据加工清洗,再到模型服务。 提供数据分类分级,对数据进行权限管控,脱敏保护和安全审计。 通过事前,事中,事后数据治理,为企业提供高质量数据资产。 大数据+AI数据链路整合 大数据+AI数据链路整合 机器学习节点 ⚫与腾讯云机器学习平台(Ti-One)集成,支持模型训练任务⚫支持资源配置,脚本编写和运行调试,支持训练任务编写 ⚫统一画布,快捷配置数据流程⚫大数据清洗加工任务与机器学习任务数据模型任务关联⚫数据加工任务与notebook任务关联 ⚫集成Jupyter Notebook工具⚫支持轻量的模型训练和增强分析 大模型精调和知识库(大模型应用场景) 在泛互,金融等有一些实际场景需要,更多需要针对行业的精调和RAG能力在知识库的快速搭建,结合结构化/非结构化数据,构建向量化存储,提升大模型在行业内的问答准确率。 知识库解决方案 Finetuning(模型微调) ⚫可以基于混元和开源微调框架为用户提供多种主要LLM的FineTuning(微调)服务⚫面向的客户主要为算法工程师,要求对模型有一定的算法基础,同时能够提供模型的训练资源 ⚫可以基于开源本地知识库技术为用户提供快速的知识库开发,可以显著提高效率⚫面向客户为对大模型有使用经验和认知的用户⚫可以提供基于排队的免费推理资源用于用户快速进行知识库开发。 数据治理:数据质量保障 覆盖数据全生命周期,从事前,事中到事后的数据治理过程,解决数据不规范,不一致,不准确的问题,为大模型提供高质量的数据。 事前 事中 事后 制定数据标准,制定数据规划,设计数据模型,配置多维度数据质量规则 实时数据质量监控,管控数据加工链路,数据质量异常检测与处理 数据质量问题处理,数据质量报告与分析,数据资产评分结果展示与持续运营 事前:数据规范化与落标检测 事中:数据质量监控&检测 通过灵活的规则配置,为数据接入、加工到消费的全生命周期各阶段提供数据质量稽核能力 丰富多元的规则配置为数据质量保驾护航 内置6大类质量规则模版 事后:数据质量评价体系与持续运营 数据健康评估 通过平台上定义的治理维度综合分析当前的数据治理健康分。从而宏观上判断是否需要进行数据治理。 采集治理维度数据 发现问题 根据不同维度的数据,发现不同业务或不同数据的健康情况,从而找到数据问题。 通过元数据采集将实际的业务数据,从定义的维度进行数据采集汇总。 数据资产管理:助力企业“用”好数,“管”好数 数据资产 在数据资产管理中,提供了数据的生命周期管理,可以帮助AI管理并处理过期的数据,而成本优化可以帮助企业降低数据存储和计算成本,而数据血缘则可以帮助AI分析过程中获得更准确的数据上下文关系,提高准确率。 全方面的数据安全防护 AIforData 提升数据开发治理效率,提高用户体验 提升数据开发治理效率,提高用户体验 全新升级智能化能力 血缘分析能力增强 数据安全智能化 数据资产智能化 WeData+AI智能助手 基于混元大模型,增加数据开发智能助手,提升用户开发效率。 提升数据资产分类效率,优化用户体验。 提供更高效稳定的数据安全识别和风险监测能力。 基于大模型,提升血缘分析通用能力,稳定性和准确率。 WeData+AI智能助手:提升数据开发效率 智能助手 SQL排错 帮助用户快速找到错误,并修复错误(90%准确性) SQL解释帮助用户快速理解SQL代码逻辑 基于混元大模型,提供SQL排错、SQL解释等功能,帮助用户提升SQL开发的效率。 SQL注释 根据用户的SQL和元数据,自动生成注释 血缘分析能力增强 SQL解析准确率更高,更稳定 传统方案稳定性差,解析经常报错 相对过去开源SQL解析技术准确率更高,解析结果不会因为一些方言和函数而运行失败。 新技术解析更稳定,兼容性更强 提升血缘解析通用能力 不仅支持SQL脚本解析,无论什么数据源类型,还是其他类型脚本都可以解析血缘,如Shell、python,DSL,QSL等等 全局血缘异常修复 血缘经常都会出现异常,大模型可以轻松帮助处理这些问题,比如处理运行失效节点,修复受损数据等等 数据资产智能化 数据资产智能辅助盘点 ⚫提高检索效率:用户只需输入自然语言的查询问题,系统可以快速地返回相应的结果,大大提高了检索效率。 元数据 ⚫提升检索准确性:大语言模型具有强大的语义理解和推理能力,可以更好地理解用户的查询意图,提高检索结果的准确性。 ⚫提供更好的用户体验:用户只需输入自然语言的查询问题,无需了解复杂的查询语法和操作步骤,大大提高了用户的使用体验。 数据安全智能化 传统引擎检测能力存在局限 ⚫部分场景误报率较高,例如密码⚫检测对象难以穷尽,例如公司名称⚫检测规则难以创建,例如姓名 实践效果 ⚫标注训练数据,训练敏感数据识别AI引擎⚫数据驱动,覆盖复杂和未知场景,突破传统规则束缚⚫业务实际运营准确率98.57%⚫每日持续运营中 数据安全智能化 智能构建数据安全资产:理清数据安全问题