数据库领域专家交流纪要 Q:AI对数据储存和分析的影响是什么?尤其是深度学习模型在数据储存方面的需求? A:目前深度学习模型,特别是像GPT-4这样的大型模型,它们在预训练阶段所需的数据集大小 已经达到几十甚至几百TB的规模。随着模型能力的扩展,例如从文本到图像再到视频处理,其数 据集的规模正在不断增加,未来可能发展到PB级别(即百万GB)。这类海量的训练数据一般不会存储于传统的关系型数据库中,而是存储在大型 的分布式文件系统内。数据库领域专家交流纪要 Q:AI对数据储存和分析的影响是什么?尤其是深度学习模型在数据储存方面的需求? A:目前深度学习模型,特别是像GPT-4这样的大型模型,它们在预训练阶段所需的数据集大小 已经达到几十甚至几百TB的规模。随着模型能力的扩展,例如从文本到图像再到视频处理,其数 据集的规模正在不断增加,未来可能发展到PB级别(即百万GB)。这类海量的训练数据一般不会存储于传统的关系型数据库中,而是存储在大型 的分布式文件系统内。在大规模分布式预训练 中,数据加载(dataloader)需要与底层文件系统结合,进行优化以提升数据由硬盘到内存再到 GPU显存的加载效率,形成一个高效的流水线。这些变动将对数据存储技术提出更高的要求。 Q:数据库厂商支持AI模型推理服务的情况如何?AI在数据分析方面的作用是什么? A:目前,数据库厂商都在支持大模型推理服务,他们通过集成开源模型并将其包装成用户自 定义函数(userdefinedfunction),允许数据库用户直接在数据库中使用这些模型。这些函数可以 应用于数据库表的行上,例如自动总结用户的投诉内容。然而,大多数数据库厂商没有自己训练模型的能力,依赖于开源模型,使得他们之间的差异化较小。他们能做的主要是优化推理框架的性能并降低成本,但在模型层面无法提供独特优 势。所以,虽然AI带来了一定的影响,但在数据分析方面可能并没有造成显著的增量需求。 Q:AI对传统数据库需求的影响如何?为什么Snowflake和MongoDB等数据库公司对未来展望保守? A:对于Snowflake和MongoDB这类公司来说,他们的主要收入仍然来源于传统数据库的工作负 载。以Snowflake为例,其AIML相关营收仅占总收入的2%到3%。即使这部分收入翻倍,对整体收入的贡献也相对有限。在业绩上,Snowflake 在2023财年预期增长速度下调,且不断下调预期,导致股价表现不佳。这种情况表明,尽管AI的发展对数据基础设施提出了一定需求,但并没 有带来数据库需求的大幅增长,同时公司的传统数据库业务增长放缓也影响了其业绩预期。 Q:Iceberg数据库对传统数据库需求的影响如何? A:Iceberg是一个开放的表格式(opentableformat),允许不同的数据库产品使用通的储存格式,但并不一定要按照关系型数据库的方 式去存储。这种大数据存储形式可能会使得客户对传统关系型数据库的需求降低,因为它提供了更灵活和优化的数据存储方案。事实上,在业绩 会上,此概念被大量提及,表明Snowflake等公司正将精力投入到这类创新数据库技术上,可能 在一定程度上改变现有数据储存和分析的格局。 Q:Snowflake的数据存储优化和客户需求有什么问题?数据迁移趋势对Snowflake有哪些影响? A:Snowflake针对执行层面和数据存储格式进行了一些优化,但由于目前无法完全满足一些大 客户全部需求,这些客户要求Snowflake支持一种名为Xberg的开源表格格式,以便于数据迁移。问题在于这会导致这些客户将数据托管在自 己的服务器上,而不是Snowflake的云环境中。 对Snowflake而言,意味着潜在的储存收费损失,此外,由于客户的数据可以在众多数据库厂 商间轻易迁移,进而导致用户粘性降低。这两个 因素都对Snowflake的营收构成了负面影响。Q:Sberg(指Xberg)的出现对整体数据库行业迁移成本有什么影响? A:Sberg作为一种新的开源数据格式,可能会被多家数据库厂商支持,这将大大降低客户随时更 换数据库系统的成本和门槛。从长远来看,这对整个数据库行业意味着企业迁移的成本降低,也意味着存在着供应商多样化竞争加剧。Q:各个头部数据库厂商有哪些特点和产品? A:Snowflake起初专注于“数据仓库托管和使用”场景,擅长处理分析性能极致的情况,但这只是数据库的一部分。现在Snowflake除了数据仓库外还开发了其他功能,例如Snowpark(一个内部重写的Spark系统),以及DataMarketplace,这允许客户通过API共享他们存储在Snowflake中的数据,使得数据使用更加多样化。这表明Snowflake不断在扩展其产品线以满足更多不同客户的需求。 Q:对最近中国unitstore以及它对数据仓库 hybridtable的创新的看法? A:Unitstore是一个提升数据处理并发性能的新型表结构,即hybridtable。它能够支持每秒几千到几万的transaction,并发度达到几千到几万, 同时还能够保持接近传统datawarehouse百分之七八十的分析性能速度。目前,这个产品还处于 publicpreview阶段,并预计在半年后实现generalavailability(GA),意味着产品可能仍需多方面的优化。 Q:能否就Databricks和它在数据处理方面的特色进行比较说明? A:Databricks在数据处理方面有其独特之处。它源自Berkeley的一个叫Spark的开源框架,后来SaaS化并开始收费。我记得数据显示,Databricks在数据仓库方面的收入约为2.5亿美元,而去年的总营收大约是16亿美元,表它的大部分收入并非仅仅来自数据仓库。Databricks的Spark产品化是其主要的收入来源。与传统的数据仓库相比,Spark提供了更丰富的前端接口支持,包括Java、Python等多种语言,使得它可以通过类似MapReduce的编程范式进行更复杂的数据pipeline处理,例如应用不同的filter对数据进行连续处理。 Q:如何看待Snowflake和Databricks在AI领域的差异? A:Snowflake虽然在数据库方面表现突出,但在AI领域相比较显得缺乏基因。它的创始团队更擅长数据库技术,对AI的理解不深。而Databricks在AI方面则更胜一筹,先是收购了MLflow,一个优秀的AI数据平台,接着又战略投资了MixtureAI,这家公司由FacebookAIResearch团队的成员创立,表现也相当不错。 我个人认为,在AI领域,Databricks相较 Snowflake有着更明显的优势。 Q:AWS的数据库产品有哪些特点?他们在 AWS的营收中占比如何? A:AWS的数据库产品主要有三种,第一种是AmazonAurora,它是与MySQL和PostgreSQL兼容的关系型数据库产品。第二种是 AmazonRedshift,适合处理数据仓库需求。第三种是AmazonDynamoDB,它是一个非关系型数据库,以键值对形式存储数据,没有关系型数 据库的一些约束条件,像主键约束和外键约束。 根据我所知,AWS年营收约为800亿美金,其中30%到40%来自数据库产品,这意味着AWS的数据库服务每年可以贡献约300亿美金的收入。Q:谷歌在数据库领域的状况如何?为何谷歌没 有在云数据库市场中取得领先地位? A:谷歌拥有技术的领先优势,比如Spanner和GoogleCloudBigtable。Spanner是全球分布式的数据库,非常先进,但市场上能充分利用其特 性的公司非常有限,故谷歌并未将其广泛推向市 场。谷歌试图将内部用于处理广告数据的F1数据库商业化,推出了名为BigQuery的外部版本。不过,谷歌在云计算服务方面的发展似乎不够好, 主要是由于服务性质的产业需要更高的服务精神 和客户服务质量,但谷歌传统依赖广告收入较为 容易,可能缺乏服务客户的热情。因此,在吸引客户方面,谷歌云数据库并未像AWS或 MicrosoftAzure那样吸引力十足。 Q:微软在数据库领域有哪些产品?这些产品的特点是什么? A:微软同样在数据库领域有着深厚的历史,主要产品包括MicrosoftSQLServer和AzureCosmosDB。SQLServer是类似于 AmazonAurora的可与MySQL、PostgreSQL兼容的云数据库。CosmosDB则是一个多模型数据库,支持键值、文档、列族和图形这些数据模 型,但对它具体的定义存在一定的困难,因为它的多功能性。 Q:Oracle在数据库市场中的现状怎样?他们在云服务方面有哪些动作? A:Oracle在云计算出现之前一直是数据库市场的霸主,特别是在金融机构中广泛使用。但在云 服务方面,他们有些落后。Oracle通常被分为两大部分,一个是传统的数据库服务,客户群相对 稳定,营收增长主要通过提价实现;另外, OracleCloudInfrastructure(OCI)是他们在云服务市场的主要推动者。OCI近期在AI方面做得不错,且即将在与英伟达的合作中发布一些新的消 息。Oracle有稳定的既有客户基础,尤其是政府和银行等不太愿意转移到新品牌的客户端,而 OCI在云服务方面发展势头良好。 Q:DataBreak在AI哪些方向相比其他数据库厂商有领先优势? A:DataBreak在AI方面的主要优势在于他们有比竞争对手快的大模型训练速度。去年,他们发 布了一个大模型,虽然我忘记了具体名字,但关键是他们的模型训练速度比其他厂商如 Snowflake要快。Snowflake曾提到从微软吸收了大约五名人员组建了团队进行大模型开发,但 在进度上比DataBreak落后约一年。另外,Data Break的CTO是马佩,他和Youngboxer都是学术界的知名教授,这对招聘有影响力,可以吸引更 多的AI候选人。在对大模型进行推理性能优化方面,DataBreak通过收购公司增强了自己的能力,而Snowflake的近期收购看起来没有达到预期效果。 Q:为什么说Snowflake在AI方面的大模型没有像DataBreak那样形成差异化优势? A:尽管Snowflake在AI的模型层面有努力,但他们在推理性能优化方面相对落后,这是 DataBreak的领先领域之一。此外,Snowflake最近的收购似乎没有太成功。他们收购的两家公 司,一家产品未能成功,另一家则是创始人及其团队离职,造成了核心实力的流失,因此在吸引 AI人才上也不如DataBreak。这些因素合在一起可能使得DataBreak在AI领域更具领先。 Q:在AI趋势下,数据库厂商需要在哪些方面进行投入,可能形成差异的优势? A:数据库厂商在AI趋势下首先需要投入大模型的开发与训练,在这个过程中加速模型的推理性 能优化。此外,招聘在AI领域有影响力的人才是重要的一环,能够提升研发能力和产品创新速 度。厂商还需要通过收购或内部研发来完善自身 的AI技术栈,提供更加丰富和集成化的解决方案,这将有助于形成技术和市场上的差异化竞争 优势。 Q:AI对数据基础设施的影响表现在哪些方面?A:AI对数据基础设施的影响主要体现在以下几个方面:首先是通过技术如techtoSQL,使得通过自然语言给出指令生成SQL代码成为可能。目前,一些数据库公司如snowflake内部已经有了这样的产品,例如snowflakepilot。其次是数据库访问接口的改进,比如能通过类似notebook的Python接口直接读写数据库,改善模型训练过程中的数据读取和处理体验。再有是大模型的运 算,如GPO实例的实时分配,以及内存和显存中数据pipeline的优化。尽管这些都在不断进步,但我认为真正的大型模型的预训练数据不太可能 存储于传统关系型数据库内。最后是向量搜寻这 一概念的兴起。如国内的lily公司,他们在向量数据库领域布局较早。现在有些数据库产品也开始支持这种查询,如Pos