目录 01生态图谱解读 02生态图谱企业洞察 生态图谱解读 图数据库 时序数据库 空间数据库&向量数据库 关系型数据库 键值数据库 开源基金会 开源产业联盟 开发者社区 代码托管平台 4 关系型数据库 定义&分类:中国数据库在2000年开始发展,虽然起步时间相较国外偏晚,但近几年增长态势旺盛,同时开源比例逐年上升。我国开源数据库产品主要集中在关系型阶段和后关系型阶段,并且以关系型数据库为主,占比约60%左右。数据统计结果显示,2021上半年中国关系型数据库软件市场规模为11.9亿美元,整体市场同比增长37.2%。 发展特征:关系型开源数据库分为OLAP(分析型数据库)、OLTP(交易型数据库)和HTAP(混合型关系数据库)三种。OLAP和OLTP数据库出现较早,HTAP数据库是混合OLTP和OLAP的应用体系结构,具有强一致性保证,并且融合了分布式能力,具备高扩展性。它在历史数据的集成和商业分析的实时性方面有很大的优势。HTAP也被认为是目前数据库发展的主流方向。 在关系型开源数据库中,实现HTAP的开源数据库数量相对较少,大约占比20%。主要数据库产品包括PingCAP孵化的TiDB,百度孵化 的BaikalDB、蚂蚁集团孵化的OceanBase、石原子孵化的StoneDB等。 5 关系型数据库 1 2 3 4 5 6 应用场景:关系型开源数据库是占比最多的,并且应用场景非常广泛。 电商新零售的HTAP解决方案 金融支付的索引方案 游戏行业的在线支持方案 线上教育的扩容方案 物联网提升运营效率和服务水平 软件服务的稳定性提升等领域 价值追求:行业飞速发展下,企业在开源数据库项目上,主要看中高扩展,高可用,强一致,高兼容,高性价比,容灾架构等技术特征。 6 图数据库 时序数据库 空间数据库&向量数据库 键值数据库 定义&分类:非关系型开源数据库主要分为图数据库、时序数据库、空间数据库、向量数据库、键值数据库。 发展特征: 01 起步晚 我国非关系数据库发展的历程更短但也更新颖,发展的成熟度和应用范围远低于关 系型数据库。 02 上云率 非关系型数据库的上云率更 高,甚至很多数据库是云原生数据库。 03 能力强 更高的读写能力,更多样的格式,同时也更容易拓展,也就更适合处理一些非结构化数据、 数据预测度较低的场景。 •如图数据库可以存储数据间的关系,形成由点到线的数据类型变化; •空间数据库可以存储矢量数据,能够更好的支撑AI等研发场景的需求。 7 图数据库 时序数据库 空间数据库&向量数据库 键值数据库 应用场景: •图数据库应用领域集中在平台、机器人等智能问答,知识领域的检索升级等情景。 •时序数据库经常应用于DevOps(包括服务和服务器)监控、物联网设备的监控与实时分析等场景。 •空间数据库为后起之秀,发展较晚应用前景较广,可以应用于元宇宙、自然资源、国土空间信息、智慧城市、生态气象等场景。 •键值数据库应用于电商的数据读取、视频直播类业务和游戏支持等数据量大、冷热分明的场景。 厂商分布: 培育开源非关系型数据库的企业主要分为两类: •自身业务有大规模非关系型数据存储和处理需求的头部互联网企业,如阿里、京东、腾讯、饿了么等。 •创新型软件服务创业型企业,如PingCAP、涛思数据等数据库厂商。 8 生态图谱企业洞察 Gitee平台托管的开源项目 Gitee指数 68 Gitee指数 16 Gitee指数 9 Gitee指数 5 Gitee指数TOP4 10 ·说明1:本数据来自于Gitee官网(2022年10月);其他项目数据尚未更新。 “ InfoQ开源项目指数数据说明 InfoQ开源项目指数说明 一级指标 二级指标 权重 代码健康(40%) 代码复制(Fork) 10% 已修复代码不足(ClosedIssue) 10% 项目更新申请(PullRequest) 5% 已完成项目更新申请 (ClosedPullRequest) 15% 社区活跃(60%) 协作影响力 10% 项目荣誉星(Star) 10% 社区贡献量 20% 社区贡献者 20% •对于开源项目的评价,代码和社区是两项最直接评价指标。 •代码的健康度体现为社区成员不断地修复和更新代码,形成研发价值的指数级增长;代码健康指标中选取的数据维度来自开源项目在GitHub中的公开数据。 •社区活跃是保证开源价值最大化的根本,被开源世界公认的社区价值是评价开源项目最主要的要素,本次研究将其权重赋值超过代码健康;InfoQ研究中心认为,社区活跃价值整体评估高于代码健康价值。 •社区活跃中主要数据也来自于GitHub的公开数据;其中协作影响力数据来自于X-lab研发的openleaderboard中的协作影响力数据。 •所有数据的采集时间均为2022年10月,在未来,随着时间的推移,数据也会呈现变化。 11 InfoQ开源项目指数TOP10 InfoQ指数 51.50 InfoQ指数 39.38 InfoQ指数 35.16 InfoQ指数 23.03 InfoQ指数 21.96 InfoQ指数 21.17 InfoQ指数 21.00 InfoQ指数 20.93 InfoQ指数 20.86 InfoQ指数 18.31 12 ·数据来源:Github与openleaderboard各项目10月数据。 2020.06 代码正式开源1.0版本发布 2020.07 技术委员会成立 2020.12 1.1版本发布 2021.03 2.0版本发布 2021.09 社区理事会成立 2022.03 3.0版本发布 2022.06 品牌委员会成立用户委员会成立 2022.09 3.1版本发布 成熟的项目组织架构是生态繁荣的保障 理事会 由全产业链20家单位组成 社区治理与生态发展 ISV生态 立足伙伴、高校、开发者生态发展伙伴生态高校生态 育人基地 商业发行版 智能基座 SIG SIG 用户委员会 数据库厂商、企业用户、高校、科研院所 秘书处 品牌委员会 技术委员会 SIG 技术培训营销活动鲲鹏&欧拉生态 openGauss伙伴生态聚集商业发行版厂商、ISV,华为为伙伴生态提供技术培训和各类营销活动,借助华为自身生态以及openGauss企业级数据库的创新能力完善生态发展。 openGauss开源社区 SIG 技术&商业峰会线下Meetup用户组 开发者生态 开源实习 暑期202x 高校课程&活动 openGauss借助伙伴、高校以及开发者生态,提升开源社区活跃度,提高技术碰撞与创新力。 2.8万套+ 累积商用 200+ 企业加入社区 10+ 10+ 166所 高校 活跃社区 第一阵营 108万+ 商业发行版关键基础设施行业 国内数据库流行度社区版下载量 5.4万+ 社区用户 4200+ 社区贡献者 24个 SIG组 14个 用户组 openGauss:聚焦内核关键竞争力构筑和四大架构创新,赋能行业核心应用 2020.06 代码正式开源1.0版本发布 2020.07 技术委员会成立 2020.12 1.1版本发布 2021.03 2.0版本发布 2021.09 社区理事会成立 2022.03 3.0版本发布 2022.06 品牌委员会成立用户委员会成立 2022.09 3.1版本发布 数据实时交易分析混合处理可扩展性提升多模多态需求满足 四 大插件化架构 架 构MySQL生态兼容插件 创 全量迁移实现单节点1h在线迁移1TB数据 增量迁移实现每秒钟30000TPS的多线程日志回放 新 可观测内核架构 可观测 可跟踪:基于eBPF全流程跟踪 可诊断:基于AI算法的故障诊断 资源池化架构 计算池化:OLTP组件和OLAP组件形成的HTAP架构 内存池化:多节点下的多版本一致性读(MVCC)能力 存储池化:多节点共用数据 数据安全架构 基于同态加密的全密态数据库 基于Tee的密态计算 0切换内存交换协议 高性能 •双路鲲鹏性能>150万tpmC 内•四路鲲鹏性能>230万tpmC 核•开源分布式方案16节点1000万tpmC 关键 竞高安全 争 力•全密态机制|数据防篡改 构•自主访问控制|强制访问控制 筑•动态脱敏|数据加密|安全审计 高可用 •RPO=0,RTO≤10s •Paxos自治共识高可用架构 •CM故障自动切换,全域高可用 高智能 •AI4DB:智能索引推荐、慢SQL诊断,效率提升10倍 •DB4AI:20+原生AI库内算子,覆盖主流场景,会SQL就能用AI 2015.9 2016.12 2017.10 2018.4 2019.6 2020.5 2021.4 2022.4 TiDB开源 TiDBRC1发布 TiDB1.0GA发布 TiDB2.0GA发布 TiDB3.0GA发布 TiDBUserGroup正式成立 TiDB4.0GA发布 TiDB5.0GA发布TiDB6.0发布 多元化的社区运营方式 •TiDB产品文档:包括项目概况、整体架构、发行说明、快速上手等相关说明文件,内容由工程师和文档团队、产品经理共同完成 •视频类内容:PingCAPUniversity,教育潜在用户,同时推出认证活动 •论坛AskTUG:问题解决&技术讨论平台 •DevCon年度技术峰会 •线上/线下InfraMeetup •能量钛:行业话题闭源活动 •TUG企业行 •Hackathon比赛与HackingCamp TalentPlan MOA MVA 社区用户委员会 (TUG-MC) 地区用户组 社区治理 贡献者 SIG 社区技术委员会 (TOC) 用户运营 Maintainer 培训体系 活动运营 内容运营 社区数据 1900个+ 贡献者 16万+ 地区用户组 9.6万+ PR 1.8万+ 主题 3.2万个+ Star 17.1万+ 讨论帖 2015.9 2016.12 2017.10 2018.4 2019.6 2020.5 2021.4 2022.4 TiDB开源 TiDBRC1发布 TiDB1.0GA发布 TiDB2.0GA发布 TiDB3.0GA发布 TiDBUserGroup正式成立 TiDB4.0GA发布 TiDB5.0GA发布TiDB6.0发布 应用场景 …… 灾备 在线理财 实时风控 支付 银行核心系统 应用行业 … 第三方支付 金融科技 证券 保险 银行 水平弹性扩展 得益于TiDB存储计算分离的架构的设计,可按需对计算、存储分别进行在线扩容或者缩容,扩容或者缩容过程中对应用运维人员透明,应对高并发、海量数据场景。 金融级高可用 数据采用多副本存储,数据副本通过Multi-Raft协议同步事务日志,多数派写入成功事务才能提交,确保数据强一致性且少数副本发生故障时不影响数据可用性。可按需配置副本地理位置、副本数量等策略满足不同容灾级别要求。 实时HTAP 提供行存储引擎TiKV、列存储引擎TiFlash两款存储引擎,TiFlash通过Multi-RaftLearner协议实时从TiKV复制数据,确保TiKV和TiFlash之间的数据强一致。两类引擎可按需部署在不同的机器,解决HTAP资源隔离的问题。 云原生的分布式数据库 TiDB是为云而设计的数据库,同K8s深度耦合,支持公有云、私有云和混合云,使部署、配置和维护变得十分简单。 高度兼容MySQL 兼容MySQL5.7协议、MySQL常用的功能、MySQL生态,应用无需或者修改少量代码即可从MySQL迁移到TiDB。 丰富工具链生态 具有丰富的工具链生态,覆盖数据迁移、同步、备份等多种场景 2019.7 2020.8 2021.12 2022.5 内核和社区版TDengine开源 V2.0发布 V2.4发布 V