行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

数据库领域专家交流纪要

2024-03-20 未知机构 HEE

Q：AI 对数据储存和分析的影响是什么？尤其是深度学习模型在数据储存方面的需求？A：目前深度学习模型，特别是像 GPT-4 这样的大型模型，它们在预训练阶段所需的数据集大小已经达到几十甚至几百 TB 的规模。随着模型能力的扩展，例如从文本到图像再到视频处理，其数据集的规模正在不断增加，未来可能发展到 PB 级别（即百万 GB）。这类海量的训练数据一般不会存储于传统的关系型数据库中，而是存储在大型的分布式文件系统内。在大规模分布式预训练中，数据加载(dataloader)需要与底层文件系统结合，进行优化以提升数据由硬盘到内存再到GPU 显存的加载效率，形成一个高效的流水线。这些变动将对数据存储技术提出更高的要求。 Q：数据库厂商支持 AI 模型推理服务的情况如何？AI 在数据分析方面的作用是什么？ A：目前，数据库厂商都在支持大模型推理服务，他们通过集成开源模型并将其包装成用户自定义函数(userdefinedfunction)，允许数据库用户直接在数据库中使用这些模型。这些函数可以应用于数据库表的行上，例如自动总结用户的投诉内容。然而，大多数数据库厂商没有自己训练模型的能力，依赖于开源模型，使得他们之间的差异化较小。他们能做的主要是优化推理框架的性能并降低成本，但在模型层面无法提供独特优势。所以，虽然 AI 带来了一定的影响，但在数据分析方面可能并没有造成显著的增量需求。 Q：AI 对传统数据库需求的影响如何？为什么Snowflake 和 MongoDB 等数 A：对于 Snowflake 和 MongoDB 这类公司来说，他们的主要收入仍然来源于传统数据库的工作负载。以 Snowflake 为例，其 AIML 相关营收仅占总收入的 2%到 3%。即使这部分收入翻倍，对整体收入的贡献也相对有限。在业绩上，Snowflake在 2023财年预期增长速度下调，且不断下调预期，导致股价表现不佳。这种情况表明，尽管 AI的发展对数据基础设施提出了一定需求，但并没有带来数据库需求的大幅增长，同时公司的传统数据库业务增长放缓也影响了其业绩预期。Q：Iceberg 数据库对传统数据库需求的影响如何？ A：Iceberg 是一个开放的表格式(opentableformat)，允许不同的数据库产品使用通的储存格式，但并不一定要按照关系型数据库的方更灵活和优化的数据存储方案。事实上，在业绩会上，此概念被大量提及，表明 Snowflake 等公司正将精力投入到这类创新数据库技术上，可能在一定程度上改变现有数据储存和分析的格局。 Q：Snowflake 的数据存储优化和客户需求有什么问题？数据迁移趋势对 Snowfl ake 有哪些影响？A：Snowflake 针对执行层面和数据存储格式进行了一些优化，但由于目前无法完全满足一些大客户全部需求，这些客户要求 Snowflake 支持一种名为 Xberg 的开源表格格式，以便于数据迁移。问题在于这会导致这些客户将数据托管在自己的服务器上，而不是 Snowflake 的云环境中。对 Snowflake 而言，意味着潜在的储存收费损失，此外，由于客户的数据可以在众多数据库厂商间轻易迁移，进而导致用户粘性降低。这两个 A：Sberg 作为一种新的开源数据格式，可能会被多家数据库厂商支持，这将大大降低客户随时更换数据库系统的成本和门槛。从长远来看，这对整个数据库行业意味着企业迁移的成本降低，也 Q：各个头部数据库厂商有哪些特点和产品？A：Snowflake 起初专注于“数据仓库托管和使用”场景，擅长处理分析性能极致的情况，但这只是数据库的一部分。现在 Snowflake 除了数据仓库外还开发了其他功能，例如 Snowpark（一个内部重写的 Spark 系统），以及DataMarketplace，这允许客户通过 API 共享他们存储在 Snowflake 中的数据，使得数据使用更加多样化。这表明 Snowflake 不断在扩展其产品线以满足更多不同客户的需求。Q：对最近中国 unit store 以及它对数据仓库hybridtable 的创新的看法？A：Unit store 是一个提升数据处理并发性能的新型表结构，即 hybridtab le。它能够支持每秒几千到几万的 transaction，并发度达到几千到几万，同时还能够保持接近传统 datawarehouse 百分之七八十的分析性能速度。目前，这个产品还处于publicpreview 阶段，并预计在半年后实现generalavailabilit y（GA），意味着产品可能仍需多方面的优化。Q：能否就 Databricks 和它在数据处理方面的特色进行比较说明？ A：Databricks 在数据处理方面有其独特之处。它源自 Berkeley 的一个叫 Spark 的开源框架，后来 SaaS 化并开始收费。我记得数据显示，Databricks 在数据仓库方面的收入约为 2.5 亿美元，而去年的总营收大约是 16 亿美元，表它的大部分收入并非仅仅来自数据仓库。Databricks 的 Spark 产品化是其主要的收入来源。与传统的数据仓库相比，Spark 提供了更丰富的前端接口支持，包括 Java、Python 等多种语言，使得它可以通过类似 MapReduce 的编程范式进行更复杂的数据 pipeline 处理，例如应用不同的 filter 对数据进行连续处理。Q：如何看待 Snowflake 和 Databricks 在 AI 领域的差异？ A：Snowflake 虽然在数据库方面表现突出，但在 AI 领域相比较显得缺乏基因。它的创始团队更擅长数据库技术，对 AI 的理解不深。而Databricks 在 AI 方面则更胜一筹，先是收购了MLflow，一个优秀的 AI 数据平台，接着又战略投资了 MixtureAI，这家公司由 FacebookAIResearch 团队的成员创立，表现也相当不错。我个人认为，在 AI 领域，Databricks 相较Snowflake 有着更明显的优势。Q：AWS 的数据库产品有哪些特点？他们在AWS 的营收中占比如何？ A：AWS 的数据库产品主要有三种，第一种是AmazonAurora，它是与 MySQL 根据我所知，AWS 年营收约为 800 亿美金，其中30%到 40%来自数据库产品，这意味着 AWS 的数据库服务每年可以贡献约 300 亿美金的收入。Q：谷歌在数据库领域的状况如何？为何谷歌没有在云数据库市场中取得领先地位？A：谷歌拥有技术的领先优势，比如 Spanner 和Google CloudBigtab le。Spanner 是全球分布式的数据库，非常先进，但市场上能充分利用其特性的公司非常有限，故谷歌并未将其广泛推向市场。谷歌试图将内部用于处理广告数据的 F1 数据库商业化，推出了名为 BigQuery 的外部版本。不过，谷歌在云计算服务方面的发展似乎不够好，主要是由于服务性质的产业需要更高的服务精神和客户服务质量，但谷歌传统依赖广告收入较为容易，可能缺乏服务客户的热情。因此，在吸引客户方面，谷歌云数据库并未像 AWS 或MicrosoftAzure 那样吸引力十足。 Q：微软在数据库领域有哪些产品？这些产品的特点是什么？ Q：Oracle 在数据库市场中的现状怎样？他们在云服务方面有哪些动作？A：Oracle 在云计算出现之前一直是数据库市场的霸主，特别是在金融机构中广泛使用。但在云服务方面，他们有些落后。Oracle 通常被分为两大部分，一个是传统的数据库服务，客户群相对稳定，营收增长主要通过提价实现；另外， OracleCloud Infrastructure(OCI)是他们在云服务市场的主要推动者。OCI 近期在 AI 方面做得不错，且即将在与英伟达的合作中发布一些新的消息。Oracle 有稳定的既有客户基础，尤其是政府和银行等不太愿意转移到新品牌的客户端，而 OCI 在云服务方面发展势头良好。Q：DataBreak 在 AI 哪些方向相比其他数据库厂商有领先优势？ A：DataBreak 在 AI 方面的主要优势在于他们有比竞争对手快的大模型训练速度。去年，他们发布了一个大模型，虽然我忘记了具体名字，但关键是他们的模型训练速度比其他厂商如 Snowflake 要快。Snowflake 曾提到从微软吸收了大约五名人员组建了团队进行大模型开发，但在进度上比 DataBreak 落后约一年。另外，Data Break 的 CTO 是马佩，他和 Youngboxer 都是学术界的知名教授，这对招聘有影响力，可以吸引更多的 AI 候选人。在对大模型进行推理性能优化方面，DataBreak 通过收购公司增强了自己的能力，而 Snowflake 的近期收购看起来没有达到预期效果。Q：为什么说 Snowflake 在 AI 方面的大模型没有像 DataBreak 那样形成差异化优势？A：尽管 Snowflake 在 AI 的模型层面有努力，但他们在推理性能优化方面相对落后，这是DataBreak 的领先领域之一。此外，Snowflake最近的收购似乎没有太成功。他们收购的两家公司，一家产品未能成功，另一家则是创始人及其团队离职，造成了核心实力的流失，因此在吸引 AI 人才上也不如 DataBreak。这些因素合在一起可能使得 Data Break 在 AI 领域更具领先。Q：在 AI 趋势下，数据库厂商需要在哪些方面进行投入，可能形成差异的优势？ A：数据库厂商在 AI 趋势下首先需要投入大模型的开发与训练，在这个过程中加速模型的推理性能优化。此外，招聘在 AI 领域有影响力的人才是重要的一环，能够提升研发能力和产品创新速度。厂商还需要通过收购或内部研发来完善自身的 AI 技术栈，提供更加丰富和集成化的解决方案，这将有助于形成技术和市场上的差异化竞争优势。Q：AI 对数据基础设施的影响表现在哪些方面？A：AI 对数据基础设施的影响主要体现在以下几个方面：首先是通过技术如 techtoSQL，使得通过自然语言给出指令生成 SQL代码成为可能。目前，一些数据库公司如 snowflake 内部已经有了这样的产品，例如 snowflakepilot。其次是数据库访问接口的改进，比如能通过类似 notebook的 Python 接口直接读写数据库，改善模型训练过程中的数据读取和处理体验。再有是大模型的运算，如 GPO 实例的实时分配，以及内存和显存中数据 pipeline 的优化。尽管这些都在不断进步，但我认为真正的大型模型的预训练数据不太可能存储于传统关系型数据库内。最后是向量搜寻这一概念的兴起。如国内的 lily 公司，他们在向量数据库领域布局较早。现在有些数据库产品也开始支持这种查询，如 PostgreSQL 通过插件支持向量搜寻。不过，尽管这一功能每个数据库厂商都应该具备，其市场容量相对较小，可能无法支撑过多公司的发展。 Q：将 AI 应用于数据库中，例如推理（inference）的应用前景如何？ A：在数据库中实现推理（inference）并非难事，技术实现相对容易。可以将模型打包成用户需求形式，按需实时启动 CPU 实例，将开源模型部署在实例上运行推导任务，并将结果应用于每行数据上。然而，目前这种实现在工业界的使用并不多，这可能是由于机器学习模型在本质上是一个黑盒系统，而数据库的执行过程需要高度的确定性。因此，一旦出现错误，后果可能无法承受，从而使得该技术在实际应用中受到限制。Q：生成式 AI 如何影响垂直领域的 SaaS 应用软件公司？A：随着生成式 AI 的发展，我们观察到一些垂直领域的 SaaS 应用软件公司，比如 S

点击免费查看完整报告

数据库领域专家交流纪要

你可能感兴趣

数据库领域专家交流纪要-20240320

公共卫生领域专家交流–20221130

国产数据库行业专家交流纪要202406201国产数据库市场现状

OLAP数据库专家交流纪要 –20221202

大模型与向量数据库专家交流纪要–20231116

【生猪】部委专家核心纪要相关领域专家会议1、猪价判断宜高度重视官

调研纪要：稳扎稳打的细分领域专家

国产数据库专家交流要点国产数据库行业正面临信创政策带来的机遇

公司深度分析：安防解析者，智能视频大数据领域专家

核电站领域专家会