**专家观点** 请介绍一下Snowflake的主要产品和功能。 Snowflake由一群在Oracle有数据仓库经验的人创立,他们意识到传统的数据仓库架构无法满足云时代的需求,因此决定重新设计数据仓库。 第一阶段(2014-2015年):Snowflake利用云技术(如AWS的EC2和S3)重新设计了数据仓库架构。主要亮点包括存储和计算分离、使用S3作为存储层,以及注重易用性。这吸引了许多Oracle的旧数据仓库用户迁移到Snowflake。 第二阶段:Snowflake发展成为一个数据平台,围绕数据仓库构建生态系统,包括引入AI/ML、数据工程、Unistore(支持OLTP和OLAP)、NativeApp、Snowpark和Streamlit等。 第三阶段(当前):Snowflake重塑品牌为"AIdatacloud",在数据的基础上扩展到AI 应用,推出新的服务如Cortex和支持大数据模型。主要产品和工作负载: 数据仓库(核心) 更多工作负载支持:Unistore、数据湖、数据工程应用协作和数据工程生态系统 AI/ML(强调支持大数据模型) 总的来说,Snowflake从最初专注于重新设计数据仓库,发展成为一个综合的数据平台,并进一步拓展到AI领域。 数据仓库(DataWarehouse)和数据湖(DataLake)的区别是什么? 数据仓库是用于存储结构化数据的系统,通常用于商业智能(BI)和报表生成等用途。在导入数据之前,需要定义表的模式(Schema),以确保所有数据都是结构化的。典型应用场景包括销售数据分析,例如查看不同地区的销售业绩并进行对比分析。 相较之下,数据湖允许存储各种格式的数据,包括非结构化数据,如文本文件和图像文件随着大数据技术的发展,越来越多的数据分析需求来自非结构化数据源。因此,数据湖提供了一种灵活的方法来存储和处理这些分散在不同位置的数据,通过一个查询引擎来进行跨格式、跨位置的数据分析。 Snowflake和Databricks在市场上的定位及其竞争关系是怎样的? Snowflake最初专注于OLAP(在线分析处理),主要服务于需要高性能报表生成和商业智能需求的客户。后来扩展到支持OLTP,但是由于OLTP市场竞争较大,Snowflake通过推出Unistore功能实现了对混合工作负载的支持,即同时处理OLAP和OLTP任务。这使得Snowflake能够吸引那些需要同时支持事务性操作和分析性操作的客户(以易用性+ 性价比为切入点)。 Databricks则起家于大规模非结构化数据处理,其架构设计初衷是为了在DeltaLake上进行计算,即将分散在不同地方的数据统一到一个计算层上进行处理。然而,随着市场需求变化,Databricks也开始向传统的数据仓库领域扩展,以增加其收入来源。这导致了与Snowflake在架构上的相似性,并且两者都利用AWSS3等云存储服务,使得它们在市场上形成了直接竞争关系。 Snowflake起家于数据仓库,而Databricks起家于数据湖。但现在两家都在向对方的领域扩张。Databricks希望进入利润更高的数据仓库市场,而Snowflake则希望扩大生态,满足更多数据湖的需求。两者在架构上也有一些相似之处。 Unistore的具体功能是什么,以及它如何帮助Snowflake拓展市场? Unistore是Snowflake推出的一项功能,用于支持混合工作负载,即同时处理OLAP和OLTP任务。传统数据库如Oracle、AWSRDS等已经占据了成熟且竞争激烈的OLTP市场,而Unistore通过提供一种混合解决方案切入这一领域。它允许用户在同一平台上既能执行高性能事务操作,又能进行复杂的数据分析,从而吸引那些需要这种双重能力的新客户群体。在此基础上,Snowflake可以进一步优化其性能,以更好地支持纯粹的OLTP用例,从而逐步扩大其市场份额。 Unistore产品的核心卖点是什么? 对于现有Snowflake用户,如果他们想做一些事务性或者操作性(operational)工作负载,但是Snowflake的性能达不到要求,Unistore可以提供更好的性能。对于非Snowflake用户,Unistore的卖点是可以用一个产品同时做OLAP分析和OLTP事务处理,减少了用户的ETL工作量,虽然性能可能不如专门的OLAP或OLTP系统,但是在控制成本的同时实现了更好的易用性。 为什么数据湖(DataLake)在金融行业的应用不如数据仓库(DataWarehouse)广泛? 数据湖在金融行业的应用相对较少,主要原因是客户群体和需求不同。大部分金融公司、保险公司等传统行业的客户,对数据分析有很高的需求,并且他们的数据通常是结构化的容易抽象和处理。因此,这些公司更倾向于使用数据仓库。此外,这些大客户在数据分析方面投入较高,而数据湖更多被一些初创企业或小型公司用于特定的数据分析需求。 金融公司为什么更倾向于选择数据仓库而不是数据湖? 金融公司更倾向于选择数据仓库主要是因为性能和历史发展原因。首先,金融公司的数据通常是结构化的,更适合使用数据仓库进行管理和分析。其次,这些公司往往有专门的数据分析团队,他们习惯于使用基于传统数据库技术的数据仓库。此外,随着时间推移,虽然越来越多的大量非结构化数据出现,但从历史角度来看,金融机构仍然更依赖于传统的数据仓库系统。 有报告称客户可以通过将数据从Snowflake迁移到Databricks来节省一半费用,这是怎么回事? 这种情况确实存在,从市场角度来看,不同厂商之间会有类似案例。例如Databricks和Snowflake都可能会公开这样的案例。这种价格差异可能源自不同厂商采用了不同的定价模型。 数据迁移通常被认为非常麻烦,但实际操作中似乎并非如此,该如何理解这一点? 数据迁移确实存在一定复杂性。一方面,需要付出大量人力成本,包括重新培训工程师和数据分析人员以适应新的工具和系统;另一方面,在技术实现上也需要克服各种兼容性问题,例如SQL兼容性等。然而,为了吸引新客户,各大厂商都会尽力提供支持工具,并签订服务协议以帮助客户顺利完成迁移。因此,从某种程度上看,这降低了迁移难度,但仍需考虑人力成本及技术兼容性问题。 Snowflake收入中哪一部分占比较大?预览中的新产品效果如何? Snowflake收入中,主要部分仍来自其核心产品——即传统的数据仓库业务。由于目前一些新功能还处在预览阶段,因此这些功能尚未完全计入收入。但可以肯定的是,有许多大型客户正在测试这些新功能,并反馈良好,同时也遇到了一些问题。在正式发布前Snowflake会尽力解决所有重大问题,以确保产品稳定性。 Snowflake的Unistore产品目前处于什么阶段?效果如何? Unistore目前还没有正式发布(GA),还处于预览(preview)阶段。很多大客户已经在使用和测试Unistore,包括一些客户已经把生产工作负载运行在Unistore上。目前得到了一些好的反馈,也发现了一些问题,Snowflake正在努力在正式发布前解决这些问题。 Snowflake在AI和大数据方面的产品如Snowpark、CortexAI目前处于什么阶段? Snowpark类似于Databricks的Spark,主要用于数据分析和数据应用。CortexAI是一个还在预览阶段的AI平台即服务产品,类似Google的VertexAI。这些围绕数据仓库的生态系统工具虽然目前不一定能直接贡献很大收入,但对吸引和留住客户非常重要。 Snowflake和Databricks在数据湖仓一体化方面各自有什么优劣势? Databricks的优势在于它一开始的目标用户就是科技公司的数据分析师、数据工程师,这些团队目前更多使用AI和大语言模型。而Snowflake一开始的目标用户是做BI的,这是Snowflake的劣势。此外,Snowflake是从数据仓库起家,再扩展到数据湖,而数据湖与AI更加贴近,也是Snowflake的劣势。目前在AI领域,Databricks处于领先,Snowflake处于追赶地位。 Databricks收购了Tabular,对Iceberg格式以及Snowflake有什么影响?Databricks收购Tabular可能会对Snowflake产生较大影响。此前Databricks推广 DeltaLake格式,而Snowflake等推广开源的Iceberg格式。Snowflake基于Iceberg发布了很多产品,希望让Iceberg成为业界公认的标准格式。但Databricks收购Tabular后,实际控制了Iceberg的发展方向。Databricks计划整合Delta和Iceberg为统一的格式。这可能导致Iceberg停止演进,Databricks将新功能都开发在统一格式上,吸引Iceberg的客户转移。Snowflake没有收购Tabular可能是一个战略失误。 您觉得未来snowflake的增长点在哪里? 目前训练大模型这一块还处于非常早期阶段,可能还需要一段时间才能体现在营收上。Snowflake拥有非常多优质客户的数据,这是一个重要优势。未来的趋势是将计算资源更多地拉近数据存储的位置。Snowflake正与nvidia合作,把大数据模型的训练集成到平台上。如果相关产品做好,AI应用变得成熟,将很有可能成为snowflake未来的增长点。但目前看来,CSP在这方面的优势可能更大一些。 Snowflake打算如何与CSP在AI平台和大模型能力方面竞争? CSP凭借更好的生态,在这方面的优势会比snowflake更大一些。但snowflake内部也 有专门的团队在做相关的新产品,未来会有较大投入,预计半年到一年内会有产品发布。 具体的产品细节目前还无法透露更多。 什么样的数据需要存在snowflake上,什么样的可以存在更便宜的数据库?最近有没有变 化? 通常结构化数据、有较高价值需要处理和分析的数据会存在snowflake这样相对昂贵的数据仓库里。而一些暂时用不到但将来可能分析的原始数据,可以存在更便宜的存储介质上。最近一年多,受经济环境影响,客户倾向于把数据从昂贵的tier转移到性价比更高的tier上。 您觉得生成式AI趋势对现有的数据基础设施公司影响如何?它们能跟上生成式AI的步伐吗? 不同公司的情况会有差异。很多公司应该都会评估对现有产品的影响并做相应调整。关键要看各家公司适应变化、执行新方向的速度。现在处于一个起步阶段,都还来得及,但最后的结果还需要一段时间才能见分晓。一些尚未上市的Start-up公司也会是重要的参与者。 您觉得snowflake的收入增速什么时候可以触底反弹? Snowflake在经济下行环境中确实面临预算削减压力,但其财报显示增长依然不错,只是增速有所放缓。未来业绩反弹很大程度上取决于宏观经济环境。当整体经济状况改善后,各客户将有更多资金投入到数据基础设施和新产品开发中,这将推动Snowflake的收入回升。因此,其收入增速触底反弹需要等待宏观环境转好。 您觉得用生成式AI做数据分析的前景和现状如何? 使用生成式AI进行数据分析是一个很有前景的方向,许多创业公司正在关注这个领域。用户可以用自然语言提问,AI系统可以将问题转化为SQL语句,从数据库中获取答案。这种技术可能会降低数据分析的门槛,不需要专业的数据分析训练就可以进行分析。这将使得公司内更多的团队(如市场营销、销售等)都能直接提问并获得数据洞见,而不仅限于数据分析师团队。 这种趋势可能会增加数据库的计算量,因为用户群体扩大,查询数量会增加。但对于Snowflake这样的数据仓库公司来说,这是一个很好的机会,因为他们可以优化系统以更高效地支持这种工作负载。未来,AI系统可能会直接从文本生成数据库可以理解的格式,省 去了将SQL语句翻译成执行计划的过程,进一步提高效率。