您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[腾讯]:腾讯云工具指南:AGI时代的“数据枢纽” - 发现报告
当前位置:首页/行业研究/报告详情/

腾讯云工具指南:AGI时代的“数据枢纽”

2023-11-15-腾讯李***
腾讯云工具指南:AGI时代的“数据枢纽”

腾讯云工具指南 05AGI时代的“数据枢纽” -向量数据库 代码传递思想·技术创造回响 目录 CONTENTS 01产品价值—向量数据库是AGI时代的数据枢纽 全球产业数据库具有怎样的关键发展趋势? 中国信通院人工智能创新中心负责人、云计算与大数据研究所副所长——魏凯04 为什么AGI时代需要向量数据库? 腾讯集团高级执行副总裁、云与智慧产业事业群CEO——汤道生05 优质的向量数据库应该符合怎样的标准? 中国信通院云计算与大数据研究所大数据与区块链部主任——姜春宇06 腾讯云向量数据库的具体优势及实践 腾讯云创始团队成员、腾讯云数据库副总经理兼向量数据库负责人——罗云07 02 行业实践—向量数据库解决各行各业智能化场景痛点 百川智能:解决大模型企业的数据大规模与高性能需求09 销售易:向量数据库在智能CRM的实践11 03 用户声音——开发者的产品实测报告 用向量数据库构建图搜图系统 码农学习联盟14 重生之我是戏精之王 齐光同辰18 PART 01 产品价值 向量数据库是AGI时代的数据枢纽 AGI时代的到来激发了数据更大的生产力——如何更好的管理、存储、检索非结构化数据将决定大模型在各行各业的应用前景及可能性 而为AI而生的向量数据库,或许是大模型的“最佳拍档” 全球产业数据库具有怎样的关键发展趋势? 中国信通院人工智能创新中心负责人、云计算与大数据研究所副所长魏凯 趋势1:从类型看,非关系型数据库前景广阔 就目前全球数据库产品分布来看,非关系型数据库数量已经超过了关系型数据库。相比之下,国内的数据库市场依然以关系型数据库为主(整体占比超过65%),这其中又以图数据库、时序数据库等关键领域类型数据库为主。 53.8% 关非系关型系数型据数库据库-图数据库 52.8% 非关系型数据库-列图存数数据据库库RDF存储 309.47% 344.53% 82.13% 52.8% 28.4% 22.3% 23.4% 非关系型数据库-原生XML数据库 键 非关系型数据库-时全序文数检据索库 非关系型数据库-面向对象数据库 4.1%7.1%9.1% 12.2% 非关系型数据库-向量数据库 10.4% 24.1% 10.4% 关非系关型系数型据数库据库-时序数据库非关系型数据库-文档数据库 156.66% 82.34% 非关系型数据库-图数据库据库 24.1% 3.1% 7.3% 4.2% 非关系型数据库-向全量文数检据索库 全球数据库产品类型我国数据库产品类型 数据来源:CCSATC601,2023年6月 趋势2:从创新看,我国的非关系型技术实力不断增强 2020-2022年我国中国高校及企业学术会议论文贡献情况 70.00% 60.00% 50.00% 40.00% 65.43% 43.15% 44.68% 30.00% 20.00%13.68%14.58% 10.00% 23.81% 16.68% 27.17% 20.15% 40.70% 28.01%28.65% 0.00%VLDBSIGMODICDESIGMODVLDBICDEVLDBSIGMODICDE 2020 2021 2022 35 30 25 20 15 10 5 0 403837 2022年我国中国高校及企业学术会议论文贡献数量 论文数量 24 232121 15 14 1313 12111110 10 从VLDB、SIGMOD和 ICDE三大数据库领域权威的学术会议来看,近三年,我国企业及高校平均贡献占比分别为23.81%、27.17% 清华大学 香港科技大学 北京大学 香港中文大学 浙江大学 华为 中国科学技术大学 北京理工大学 华东师范大学 中国人民大学 香港浸会大学 哈尔滨工业大学 北京航空航天大学 复旦大学 腾讯 和40.70%,且数量呈逐年上升趋势。 数据来源:CCSATC601,2023年6月 趋势3:从标准看,数据库需要从供给侧到标准侧制定相关标准 数管熟理度能模力型维成 面向数据库应用机构 应用侧 供给侧 面向数据库技术产品 稳定性专项评测类型安全专项性能专项基础能力专项 关安系全型关安系全型分析式型分事布务式型数时据序库数稳据定库性分析式型分事布务式型数时据序库分大析规型模事一务体型化分一析体型化数时据空库 数内据存库分数大规据模型库管SQ理L质平量台数HT据A库P管数理据平库台防数篡据改库迁数移据工库具数搜索据型库 分数析据型库事数务据型库关数系据云库数时据序库图据数库数文据档库全数密据态库数智据能库化数一据体库机 面向数据库服务商通用服务能力 规服划务设能计力 实服施务部能署力 运服维务运能营力 专项服务能力 应数用据迁库移 目前数据库行业玩家众多,亟需统一行业标准规范发展:主要面向三类参与方(数据库技术产品、数据库服务商以及数据库应用机构)建立不同的评判标准。 2023上半年新增5个标准(上述图中标橙色显示) 为什么AGI时代需要向量数据库? 腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生 最近这一年,AIGC浪潮席卷全球,很多志向高远的企业,都在思考如何拥抱新技术,以AI重塑公司的业务和产品。很多客户也和腾讯开展了紧密的合作,探索如何将大模型在实际场景中用起来,帮助业务降本、提效、增收。 众所周知,大模型应用的关键,不只是构建好模型算法,更重要的是做好数据的处理、挖掘等问题。数据贯穿了大模型从预训练到产业落地的全过程。一定程度上,智能时代,企业数据处理能力有多强,决定了业务发展的天花板有多高。 企业在搭建和使用大模型时,需要把海量数据,安全高效地接入大模型,但在企业复杂的数据中,适合关系型数据库的,结构化数据仅有20%,其余80%是文本、图像、视频、音频等非结构化数据。 向量数据库可以把复杂的非结构化数据,处理成多维逻辑的坐标值,与大模型进行连接,数据处理效率比传统方式提升10倍。 同时,向量数据库也可以作为“外部知识库”,给大模型输送最新、最全面的信息,应对有时效性的问答;并且让大模型拥有长期记忆,避免聊天时“断片”。可以说是大模型的“最佳拍档”。 AI驱动产业变革的时代正在到来,作为支撑大模型的重要基础设施,向量数据库也会从一个“领域型数据库”,变成覆盖广阔场景的“通用型数据库”,甚至是“数据枢纽”,前景广阔。 优质的向量数据库应该符合怎样的标准? 中国信通院云计算与大数据研究所大数据与区块链部主任姜春宇 随着人工智能时代到来,一些非结构化数据需要通过机器学习算法从中提取出以向量为表示形式的“特征”,向量数据库的兴起便是为了解决对这些向量进行存储与计算的问题。 相比其他类型数据库,向量数据库具有8大关键技术能力: 分布式与并行计算能力实时处理能力提升高级查询功能硬件加速 更高效的分布式与并行计算可以让大规模向量数据在多个计算节点间进行分配,使得查询、排序等操作能够并发进行,大大缩短了计算时间。 许多AI应用需求求向量数据库有高效的实时处理能力,即使是对大规模的向量数据,也能在最短的时间内找到最匹配的结果。 高级查询功能,如范围查询、最近邻查询,甚至基于语义的查询等,将是向量数据库的必备功能。 为了更高效地处理数据,硬件加速将是一种有效的解决方案。利用GPU的强大并行计算能力,或者利用定制的AI芯片,都可以大大提高向量数据库的处理能力。 不同大模型的性能优化多模态数据处理能力提升通用性和易用性与大模型的深度融合 不同类型的大模型对数据的处理和计算需求可能会有所不同。向量数据库需要能够针对这些差异进行优化,以提供最佳的性能。 随着大模型向多模态发展,如图文混合模型、音视频混合模型等,对应的数据也将会更为复杂多元。向量数据库需要能够有效地处理这些多模态数据。 随着向量数据库的应用场景不断拓宽,提升其通用性和易用性成为一项重要任务。这包括提供更简单的数据导入导出,提供更易用的查询接口,以及提供更灵活的数据管理功能。 未来,向量数据库将和深度学习、大模型更紧密地结合,共同推动AI的发展。向量数据库需要能够理解大模型的需求,为其提供最合适的数据服务。而大模型也需要能够利用向量数据库的能力,以提高自身的效率和效果。 七大能力域、三十二个能力项 27必选项+20可选项 稠密向量 稀疏向量 向量维度 基础标量数值类型 向量数据类型 半结构化数据类型 单行数据支持多个向量字段 向量数据存储压缩 近似检索 精确检索 游标读取 标量与向量的融合查询 标量的增删改查 向量的增删改查 主键查询 ... 部署方式 监控巡检 参数配置 升级 运维管理接口 备份与恢复 故障节点恢复 系统日志 对此,信通院联合腾讯云等多家关键厂商制定《向量数据库技术要求》,针对七大能力域、三十二个能力项制定向量数据库行业标准。 基本功能 运维管理 兼容性 CPU兼容性 编程接口 安全性 权限管理 数据加密 审计日志 扩展性 节点动态扩容 节点动态缩容 高可用 高可用 工具生态 多模态数据向量化能力 大模型工具集成 腾讯云向量数据库的具体优势及实践 腾讯云创始团队成员、腾讯云数据库副总经理兼向量数据库负责人罗云 腾讯云将向量数据库定义为AGI时代的数据枢纽,其需要具备“企业化”及“智能化”两项关键能力:前者需要满足企业对分布式、高性能、高可用、安全性、可靠性及成本可控六个关键能力;后者则需要实现借口、计算、存储三个关键领域的智能化。 一、企业化能力:千亿级数据规模、500万QPS、99.99%可用性 二、智能化能力:内容召回率提升30%,推理速度大幅提升 upsert texts searchvectors Embessing模型 向量数据库 原始文本数据 集成Embedding,实现自然语言查询AI套件:端到端的RAG应用检索方案 三、实践成果:集团内部40+业务接入,1600亿次请求/天;1000+外部用户接入 集团内部外部用户 PART 02 行业实践 向量数据库解决各行各业智能化场景痛点 解决大模型企业的数据大规模与高性能需求 客户场景:搜索增强 百川智能是一家为客户提供大模型服务的能力,基于搜索与输入法多年积累,以RAG框架为原型融合企业私有数据、实时性数据。为客户提供搜索增强的能力,一方面基于搜索经验优化大模型,另一方面基于搜索模型补齐大模型短板,解决大模型应用常见的模型幻觉与数据时效性问题。 InstructionTimelinessClassifierAnalysis UserQuestion: What'schatgpt? TaskPlanning Query WebSearchPlugin Response QueryGenerator fine-tunedBaichuanLLM ReferencePrompt EnhanceAugment LLMwithRelevance LLMwith SearchEnhanced KnowledgedomainDatabase HyperparamTuner KnowledgeRefinement Databaseindex[2]:Deeplearningmethod... Databaseindex[1]:ThemainideaofGPT... Searchresult[3]:ChatGpTistransformer... Searchresult[2]:ChatGpTisaLlMcreatedbyOpenAI... Searchresult[1]:ChatGPTisGPT... 搭建大规模推理服务 超大规模数据算法与工厂获取与清洗调优 算力构建 数据增强算法调优 搜索经验:帮助大模型优化 大模型+搜索增强架构 Scoreboard From idx score Web 1 -0.5 Web 2 0.9 Web 3 -0.4 DB 1 0.7 DB 2 -1.2 SearchEnhancedGenerator