行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

基于云原生的作业帮大数据采集体系建设与迁移实践-伍思磊

信息技术2023-06-05ArchSummit上海2023|全球架构师峰会睿***

AI智能总结

一、背景

作业帮是一家提供在线教育服务的公司，拥有复杂的大数据中台架构。其主要业务包括教育、辅导等，涉及大量的用户数据和业务数据。

二、作业帮数据采集体系的架构升级

架构升级

三个阶段：从传统的数据采集方式逐步进化到更先进的数据采集体系。
痛点：
- 新数据源难以扩展。
- 采集组件依赖虚拟机，导致运维成本高，资源利用率低。
- 入仓需求定制化复杂。
- MR任务缺乏物理隔离，资源争抢严重。
目标：支撑经营分析决策，实现低成本、高安全的工作台实时/小时级数据在线系统；满足业务分析、管理者驾驶舱及企业成本管理需求。
架构目标：面向不同业务场景，提供多样化的数据源支持，确保数据的安全性和准确性。

三、作业帮数据采集体系的迁移实践

数据库采集：从 Canal 到 Flink-CDC

Canal：
- 仅支持 MySQL，扩展性差。
- 不支持全量 CDC。
- 部署在虚拟机上，运维成本高，资源利用率低。
Flink-CDC：
- 支持多种数据库（MySQL、MongoDB、PostgreSQL 等）。
- 实现了增量和全量 CDC。
- 部署在容器化环境中，资源利用率高。
性能对比：
- Canal 峰值 QPS：13000。
- Flink-CDC 峰值 QPS：19000（+32%）。
收益：
- 资源消耗减少 67%。
- 消费性能提升 32%。

日志采集：从虚拟机到容器化

规模：接入日志源超过 1000 个，每日日志量级达百亿条，每秒峰值 CPS 数百 Gbps。
痛点：
- 流量网关使用虚拟机部署，运维成本高。
- 后端服务容器化上云后，现有 Flume 采集接入体系难以满足需求。
- 多个外围服务管理，维护成本大，稳定性差。
解决方案：
- 流量网关上云。
- 基于 Kubernetes 的 done 标记实现。
收益：
- 成本节省显著：资源核数消耗减少 54%，运维人力从 3 人减少到 0.5 人。
- 提高了系统的可维护性和稳定性。

四、未来规划

CDC 轻量化、整库同步：实现更优雅的迁移方案。
接入能力：进一步抽象，降低成本，接入更多新数据源。
观测性：增强入仓全链路的感知和管控能力。

基于云原生的作业帮大数据采集体系建设与迁移实践-伍思磊

点击免费查看完整报告

你可能感兴趣

hot

货拉拉基于混合云的大数据成本管控体系建设实践_王海华

信息技术

ArchSummit深圳2022|全球架构师峰会2022-07-19

hot

02-基于云原生Serverless和消息服务技术采集全球分布业务数据实践-马腾

信息技术

ArchSummit北京2023|全球架构师峰会2023-06-06

hot

2024年云原生体系在中小金融机构的实践与创新报告

无锡农商行2024-08-29

hot

02-小红书云原生实时数仓的建设与实践-王成

文化传媒

ArchSummit北京2023|全球架构师峰会2023-06-06

hot

云原生技术体系在寿险行业的规划和落地实践-周建华

金融

ArchSummit上海2023|全球架构师峰会2023-06-06