数据编排技术在联通的应用
缓存加速
- 背景:
- 面临多种计算平台,如T+1批处理业务、传统统计业务等,导致资源消耗大、速度慢。
- 统一计算引擎带来了性能和稳定性挑战。
- 解决方案:
- 引入Alluxio作为分布式缓存,加速数据读写性能。
- 使用案例:
- 加速迭代计算:提升下游SQL读取数据速度,提高数据写入稳定性。
- Spark Job间共享数据:替换Spark cache。
- 内存多副本显著提高热数据访问速度。
- 效果:
存算分离
- 背景:
- 业务快速增长导致资源碎片化。
- 历史数据存储需求逐年递增。
- 解决方案:
- 利用其他业务资源满足计算扩容需求。
- 使用案例:
- 元数据及数据缓存。
- 基于RocksDB + Raft HA解决没有本地HDFS时Alluxio HA元数据操作性能问题。
- 跨集群部署Dolphin Scheduler Worker。
- 效果:
混合负载
- 背景:
- Spark与Presto共用Alluxio缓存的竞争问题。
- 单机版TensorFlow与Spark ETL集成问题。
- 解决方案:
- 利用Alluxio Client Cache实现缓存隔离。
- 使用案例:
- 实现Presto与Spark间的缓存隔离。
- 使用Alluxio Fuse打通ETL与AI训练/推理。
- 效果:
轻量级分析
- 背景:
- 数据分析场景新趋势。
- 业务工程师缺乏大数据开发背景。
- 服务器资源不足。
- 解决方案:
- 基于Presto + Alluxio实现轻量级数据分析。
- 使用案例:
- 满足数据分析需求,运维复杂度低。
- 基于Presto Iceberg connector实现只写缓存。
- 效果:
总结
数据编排引擎Alluxio在联通的应用广泛,涵盖了缓存加速、存算分离、混合负载和轻量级分析等多个场景,有效提升了业务效率和降低成本。