您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [深圳崖山科技]:YashanDB中国软件:自强、自立、自信 - 发现报告

YashanDB中国软件:自强、自立、自信

信息技术 2024-12-27 深圳崖山科技 ζޓއއKun
报告封面

深圳计算科学研究院&崖山科技 软件行业现状 •中国上市软件公司的总体利润已连续3年下滑!•2024年上半年同比下滑了91.62%! •无底线的价格战,行业严重内卷! 软件行业代表一个国家的软实力 中美软件公司差异巨大 •几家软件巨头市值超万亿美元,远远超过G20国家中巴西、澳大利亚、土耳其、南非等国GDP•软件行业头部科技公司已超越传统行业龙头,一跃成为全球最有价值的公司之一 数据来源:金十数据/百度股市通/新浪财经,2024年6月30日(单位:美元) 软件是数字经济的重要组成 软件产业两大根基:一是基础软件,一是专业服务 核心价值 基础软件特征 •高成本(人员、时间、资金)•高难度(根技术、大工程、跨专业)•高风险(功能/性能、稳定/安全、生态/推广)•高可控(强依赖、风险度降低)•高价值(可复制、生产力提升、竞争力赋能) •基础使能vs.项目应用;•l标准化供给vs.定制性交付;•l整体化开发vs.分片式外包;•l持续性迭代vs.一次性交付 现在禁芯片;如果以后禁(开源)软件呢? 亟待自强:创新,标准化,基础软件 软件领域被欧美长期主导 2023年数字经济占GDP比重 数字经济成为国家经济发展的发动机,数据库是数据产业化的组成,也是产业数据化的基础 中国软件行业任重道远 国产数据库发展历程 •以往国产数据库系统:历经三代发展,没有能够真正替代Oracle的产品•Oracle代码负担无法及时应对的大数据分析挑战 开源增强的分布式数据库适合互联网企业的新应用 自研的分布式数据库适合金融企业互联网场景 •缺乏根技术,单机差距大•适用场景有限,效率不高成本高 •核心引擎仅为Oracle单机性能的40%•切换需大量人力 •单机性能和可靠性较低•与开源对比竞争力不强 2020年中国信通院:对国内分布式事务数据库产品进行了分析,发现:71.4%的产品是基于PostgreSQL或MySQL二次开发完成 中国人有没有能力研发国际一流的基础软件? 开源底层机制存在缺陷 设计图公开的金库安全风险明显大于未公开的:Oracle,SQLserver和IBMDB2都选择了闭源路线。Oracle源代码在其中国办公室无法访问。 稳定可靠 单机容量 性能 MySQL考虑性能采用半同步实现复制,因此在主机故障时,无法保证数据不丢。近期某银行遇到大压力下同步复制,主机拥塞问题。PG追加写机制,在高频更新下容易卡顿 当 前 单 机 存 储 容 量 达 到1 0T B级 别 已 是 常 态。MySQL受限于底层Btree组织,单表数据量不宜超过千万级,无法满足业务扩展要求。 针对大并发访问,MySQL行级锁机制较为受限,表级锁容易形成热点。复杂查询所依赖于优化器能力,也是MySQL的短板。 开源差距较大,无法应对大压力挑战 分布式路线的尝试 硬 件 采 购 分布式架构并非银弹 单机性能无法对标,涉及的组件较多,相同负载需耗费机器资源较多 分布式架构源于互联网,而银行与互联网的基础需求存在一定差异,理清银行基础需求再进行架构设计是新一代分布式核心的建设基石 日 常 维 护 未 形 成 成 熟 的 服 务 生态,需 要 重 新 学 习 对应 产 品 能 力,D B A新增人力成本较高 应 用 改 造 分布式改造引入大量适配工作,部分产品不支持存储过程等能力,改造费用远超数据库 分布式改造成本高,难维护 信创的挑战 各行业核心替代任重道远 Oracle 50年历程:15年成为龙头、35年领跑世界 政府引导市场 技术领跑的系统研发 技术变革的理论先机 •第一批客户包括中情局和美国军方等;•2020年Oracle公司在美国政府支持下接受TikTok业务•2022年美国国防部“联合作战云能力”合同 •发布Oracle9i等,领跑数据库技术:•支持共享集群•Exadata一体机的分析性能与稳定性,超越了传统的分布式数据库 •IBM于1970年提出关系数据库新理论,却错失先机;•Oracle率先发布关系数据库,技术优势日益显著(SQL、C/S分离架构、细粒度事务、可移植性) 1987年成为最大的数据库公司(1989年进入中国市场,1997年成为中国电信产业最大的数据库供应商);主动拥抱AI,2024年10月市值超过4800多亿美元,达历史新高! Oracle的发展根基:基于原创理论+自主可控技术+政府引导市场 AI对数据库系统带来的挑战 崖山的思考与答案 混合查询同时处理结构化和向量数据,关注查询效率和复杂性 OpenAI收购Rockset 面对挑战现有方法在效率与准确性之间难以实现平衡 •大模型通过重新训练实现更新知识成本巨大,且信息不可避免存在严重滞后:GPT-4每1次训练需2.5万张A100卡,耗时百日、花费6300万美元•OpenAI需要将外部知识库中信息注入大模型,解决大模型高效实时更新问题 数据高维问题AI技术发展提高了向量数据维度,需应对存储效率和高性能相似度计算挑战 •基于语义连接实现多模态异构数据的跨模计算•提供向量数据管理能力,并支持关系&向量混合查询•探索数据尺度无关的确定性查询方法,兼顾查询性能和准确度 计算可扩展性:应对向量数据增长的需求 •数据增长:向量数据快速增长,需维持稳定性和高性能•性能维护:扩展系统时,确保查询效率不受影响•资源利用:数据增加时,优化系统资源利用 自研才会自强、自立!追赶、平替、超越 自研向量数据库构建统一向量数据管理能力 大模型训练需要海量原始数据和向量数据 分布式技术路线成本高不可持续 •增量:自2017年起,AI模型的规模每半年翻一番,用于模型训练的数据量持续增长,原始数 据 达 到P B级,训 练 数 据 每 月 新 增2 0 0-300TB•高维:大模型训练中使用的向量维度可能从几百到上万维不等。•多模:DeepMind的Flamingo视觉语言模型采用20多亿图文对,270万视频-文本对,430万图文混合数据 •扩展性问题:分布式计算需要在不同节点间实现数据和状态同步,随计算效率随集群增长而下降,无法满足数据持续增长要求的算力增长•成本高:计算和存储节点需求会随数据不断增长,硬件和维护成本不断膨胀 开源无法满足需求基于开源只是临时方案 •当前开源向量数据库多采用开源组件“组装”“拼接”路,线难以完全融合适配,性能受开源组件向量检索库、关系数据库或其他组件限制•基于开源不能完全掌控源代码,难以快速应对多模态原始数据和向量数据的统一管理以及高性能查询的新需求 开源组装,无法满足新需求,只能是临时方案 开源和分布式方案存在不足不能满足新需求 深算院原创理论:有界计算、跨模计算、近似计算、混合查询 自信:原创理论实现技术与产品的超越 崖山:知其不可为而为之自强、自立、自信