汇量科技智能决策基座MINDALPHA高性能分布式机器学习平台总结
背景-广告业务现状
- 数据规模:请求数亿级,样本条数亿级
- 训练时间:分钟级
- 请求时延:毫秒级
- 模型大小:百GB
智能决策基座-MindAlpha
- 训练平台目标:降低成本、提高效率、提升效果
- MindAlpha-PS简介:
- 协调器(coordinator):负责分发任务
- 服务器(server):装载模型并拉取模型参数
- 计算节点(worker):执行计算任务
- MindAlpha-on Spark:提供统一解决方案,易于扩展
- 模型拆分:
- 稠密网络(dense):需要one-hot编码成矩阵
- 稀疏网络(sparse):稀疏数据可以数值化表示
- MindAlpha-MA API:支持多种数据读写格式(如Kudu、CSV、ORC、TXT),模型源语操作(如load&save、fit&transform、export)
- 优化器:支持多种优化器(如Adam、Ftrl、Lamb、embeddingsumContact、lookUp、sumRange)
MLOps建设
- IDE建设:使用Jupyter完成代码调试
- 云原生&CI建设:Yarn(pyenv)、Kubernetes(x86, ARM)、Git标签
机器学习平台发展之路
通过MindAlpha,汇量科技实现了高性能的分布式机器学习平台,有效解决了广告业务中的大数据挑战。