行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

YashanDB中国软件：自强、自立、自信

信息技术 2024-12-27 深圳崖山科技 ζޓއއKun

中国上市软件公司利润连续3年下滑，2024年上半年同比下滑91.62%，行业面临无底线价格战和严重内卷。软件作为数字经济重要组成部分，其两大根基为基础软件和专业服务。

中美软件行业差异显著

美国软件巨头市值超万亿美元，远超部分G20国家GDP，头部科技公司超越传统行业龙头成为全球最有价值企业之一。
中国软件行业长期被欧美主导，核心数据库发展历经三代仍无法替代Oracle，国产数据库存在根技术缺失、适用场景有限等问题。

开源与分布式方案的局限性

71.4%国产分布式数据库基于PostgreSQL或MySQL二次开发，开源底层机制存在设计缺陷（如金库安全隐患、MySQL性能瓶颈）。
分布式架构改造成本高、维护难度大，硬件采购和日常维护成本显著高于单机方案。

Oracle成功经验与挑战

Oracle通过原创理论（关系数据库）、自主可控技术及政府支持（如中情局订单、TikTok收购），成为数据库行业龙头。
AI技术对数据库系统提出新挑战：大模型训练需PB级数据，向量数据维度提升带来存储与计算压力。

崖山科技解决方案

提出混合查询（结构化+向量数据）、跨模计算、有界计算等原创理论，构建自研向量数据库以统一管理多模态数据。
认为开源方案（如Rockset被OpenAI收购）仅是临时方案，分布式路线成本不可持续，需通过自研实现技术与产品超越。
强调“自强、自立、自信”，以原创技术应对AI时代数据库新需求，推动中国软件行业实现追赶、平替、超越。

深圳计算科学研究院&崖山科技软件行业现状 •中国上市软件公司的总体利润已连续3年下滑！•2024年上半年同比下滑了91.62%！ •无底线的价格战，行业严重内卷！软件行业代表一个国家的软实力中美软件公司差异巨大 •几家软件巨头市值超万亿美元，远远超过G20国家中巴西、澳大利亚、土耳其、南非等国GDP•软件行业头部科技公司已超越传统行业龙头，一跃成为全球最有价值的公司之一数据来源：金十数据/百度股市通/新浪财经，2024年6月30日（单位：美元）软件是数字经济的重要组成软件产业两大根基：一是基础软件，一是专业服务核心价值基础软件特征 •高成本（人员、时间、资金）•高难度（根技术、大工程、跨专业）•高风险（功能/性能、稳定/安全、生态/推广）•高可控（强依赖、风险度降低）•高价值（可复制、生产力提升、竞争力赋能） •基础使能vs.项目应用；•l标准化供给vs.定制性交付；•l整体化开发vs.分片式外包；•l持续性迭代vs.一次性交付现在禁芯片；如果以后禁（开源）软件呢？亟待自强：创新，标准化，基础软件软件领域被欧美长期主导 2023年数字经济占GDP比重数字经济成为国家经济发展的发动机，数据库是数据产业化的组成，也是产业数据化的基础中国软件行业任重道远国产数据库发展历程 •以往国产数据库系统：历经三代发展，没有能够真正替代Oracle的产品•Oracle代码负担无法及时应对的大数据分析挑战开源增强的分布式数据库适合互联网企业的新应用自研的分布式数据库适合金融企业互联网场景 •缺乏根技术，单机差距大•适用场景有限，效率不高成本高 •核心引擎仅为Oracle单机性能的40%•切换需大量人力 •单机性能和可靠性较低•与开源对比竞争力不强 2020年中国信通院：对国内分布式事务数据库产品进行了分析，发现：71.4%的产品是基于PostgreSQL或MySQL二次开发完成中国人有没有能力研发国际一流的基础软件？开源底层机制存在缺陷设计图公开的金库安全风险明显大于未公开的：Oracle，SQLserver和IBMDB2都选择了闭源路线。Oracle源代码在其中国办公室无法访问。稳定可靠单机容量性能 MySQL考虑性能采用半同步实现复制，因此在主机故障时，无法保证数据不丢。近期某银行遇到大压力下同步复制，主机拥塞问题。PG追加写机制，在高频更新下容易卡顿当前单机存储容量达到1 0T B级别已是常态。MySQL受限于底层Btree组织，单表数据量不宜超过千万级，无法满足业务扩展要求。针对大并发访问，MySQL行级锁机制较为受限，表级锁容易形成热点。复杂查询所依赖于优化器能力，也是MySQL的短板。开源差距较大，无法应对大压力挑战分布式路线的尝试硬件采购分布式架构并非银弹单机性能无法对标，涉及的组件较多，相同负载需耗费机器资源较多分布式架构源于互联网，而银行与互联网的基础需求存在一定差异，理清银行基础需求再进行架构设计是新一代分布式核心的建设基石日常维护未形成成熟的服务生态，需要重新学习对应产品能力，D B A新增人力成本较高应用改造分布式改造引入大量适配工作，部分产品不支持存储过程等能力，改造费用远超数据库分布式改造成本高，难维护信创的挑战各行业核心替代任重道远 Oracle 50年历程：15年成为龙头、35年领跑世界政府引导市场技术领跑的系统研发技术变革的理论先机 •第一批客户包括中情局和美国军方等；•2020年Oracle公司在美国政府支持下接受TikTok业务•2022年美国国防部“联合作战云能力”合同 •发布Oracle9i等，领跑数据库技术：•支持共享集群•Exadata一体机的分析性能与稳定性，超越了传统的分布式数据库 •IBM于1970年提出关系数据库新理论，却错失先机；•Oracle率先发布关系数据库，技术优势日益显著(SQL、C/S分离架构、细粒度事务、可移植性) 1987年成为最大的数据库公司(1989年进入中国市场，1997年成为中国电信产业最大的数据库供应商)；主动拥抱AI，2024年10月市值超过4800多亿美元，达历史新高！ Oracle的发展根基：基于原创理论+自主可控技术+政府引导市场 AI对数据库系统带来的挑战崖山的思考与答案混合查询同时处理结构化和向量数据，关注查询效率和复杂性 OpenAI收购Rockset 面对挑战现有方法在效率与准确性之间难以实现平衡 •大模型通过重新训练实现更新知识成本巨大，且信息不可避免存在严重滞后：GPT-4每1次训练需2.5万张A100卡，耗时百日、花费6300万美元•OpenAI需要将外部知识库中信息注入大模型，解决大模型高效实时更新问题数据高维问题AI技术发展提高了向量数据维度，需应对存储效率和高性能相似度计算挑战 •基于语义连接实现多模态异构数据的跨模计算•提供向量数据管理能力，并支持关系&向量混合查询•探索数据尺度无关的确定性查询方法，兼顾查询性能和准确度计算可扩展性：应对向量数据增长的需求 •数据增长：向量数据快速增长，需维持稳定性和高性能•性能维护：扩展系统时，确保查询效率不受影响•资源利用：数据增加时，优化系统资源利用自研才会自强、自立！追赶、平替、超越自研向量数据库构建统一向量数据管理能力大模型训练需要海量原始数据和向量数据分布式技术路线成本高不可持续 •增量：自2017年起，AI模型的规模每半年翻一番，用于模型训练的数据量持续增长，原始数据达到P B级，训练数据每月新增2 0 0-300TB•高维：大模型训练中使用的向量维度可能从几百到上万维不等。•多模：DeepMind的Flamingo视觉语言模型采用20多亿图文对，270万视频-文本对，430万图文混合数据 •扩展性问题：分布式计算需要在不同节点间实现数据和状态同步，随计算效率随集群增长而下降，无法满足数据持续增长要求的算力增长•成本高：计算和存储节点需求会随数据不断增长，硬件和维护成本不断膨胀开源无法满足需求基于开源只是临时方案 •当前开源向量数据库多采用开源组件“组装”“拼接”路，线难以完全融合适配，性能受开源组件向量检索库、关系数据库或其他组件限制•基于开源不能完全掌控源代码，难以快速应对多模态原始数据和向量数据的统一管理以及高性能查询的新需求开源组装，无法满足新需求，只能是临时方案开源和分布式方案存在不足不能满足新需求深算院原创理论：有界计算、跨模计算、近似计算、混合查询自信：原创理论实现技术与产品的超越崖山：知其不可为而为之自强、自立、自信

点击免费查看完整报告

YashanDB中国软件：自强、自立、自信

你可能感兴趣

科技的自立与自强20241021

建材行业周报：稳增长自强之路回归周期

新三板高端装备双周报:新三板双周必读,市场低迷,企业自强

大摩闭门会邢自强解读四中全会前瞻五年规划20251027

大摩邢自强2025最新宏观预测判断打破通缩刺激内需20250118

邢自强美元对人民币汇率走势及全球货币体系分析20260126

邢自强高关税强美元如何应对20241128

建筑材料行业跟踪周报：楼市政策暖风吹，科技自强乾坤定

公司首次覆盖报告：仪表领航，国产自强

中国房地产行业点评：强者自强