eBay智能营销中的AI一体化大数据平台实践 刘思中 eBay资深技术经理 •eBay的智能营销 •eBay智能营销的特征平台 •eBay智能营销的机器学习训练平台 •eBay智能营销的模型A/B测试平台 •未来展望 eBay智能营销场景与系统 •多渠道营销 •广告营销 •消息营销 •社交营销 •营销漏斗全覆盖 •品牌推广 •用户培养 •营销转换 eBay大数据生态与算法应用 •数据丰富且体量巨大 •每天消费数据>1PB •计算资源丰富vs.性价比 •离线计算、实时计算 •CPUvs.GPU •最后一公里的解决方案 •通用性vs.专业性 eBay智能营销机器学习生命周期 数据 挖掘探索 模型 训练部署 模型 测试评估 模型上线 • • • 数据质量 特征打造离线、在线数据一致性 •模块编排 •快速测试 •无缝上线 •工程质量 •指标质量 •快速迭代 •开发部署一 致性 •可视化洞察 •持续监测 •eBay的智能营销 •eBay智能营销的特征平台 •eBay智能营销的机器学习训练平台 •eBay智能营销的模型A/B测试平台 •未来展望 eBay智能营销特征平台(FeatureLake) •特征计算的挑战 •开发周期长,占用模型开发生命周期60%以上的时间 •特征开发与生产上线不一致 •离线特征与在线特征不一致 •复用率低、难于搜索已有特征 •特征平台的机会 •有限数据源(<100) •有限数据聚合转换(80%重复) eBay智能营销特征平台(FeatureLake) •数据源定义 •特征领域+键(key) •历史回溯时间 •最小聚合粒度 •特征定义 •Transformer •FeatureSet •场景1 •数据源一致 •聚合时间粒度相同(离线数据无聚合) •回溯历史较短(<14d) eBay智能营销特征平台(FeatureLake) •场景2 •数据源一致 •聚合时间粒度不同(特征<数据源) •回溯历史<14dvs.>14d •场景3 •数据源不一致 userid:165096,docid:127303,date:2023-06-01,sgpjbg.com eBay智能营销特征平台(FeatureLake) •离线特征与NRT特征不一致性再探 •数据计算架构Lamdavs.Kappa •不可能三角:数据实时性vs.窗口历史回溯长度vs.窗口时间精度 •特征工程的其他重要功能 •Replay&Point-inTime •FeatureDriverSet •特征生命周期管理 •eBay的智能营销 •eBay智能营销的特征平台 •eBay智能营销的机器学习训练平台 •eBay智能营销的模型A/B测试平台 •未来展望 eBay智能营销机器学习训练平台 •算法团队心中的理想环境 •支持多异构环境(Python/Spark,CPU/GPU) •数据获取的简易型与一致性(FeatureLake) •开发与生产环境的一致性 •无缝地完成从训练到上线 •模型管理+代码质量管理+版本管理 •支持工具(开发、编排、监测) eBay智能营销机器学习训练平台 •模型协同开发 •基于Github的模型源代码+版本管理 •模型模块化+协作开发 •模型元数据定义(yaml) •统一集成部署 •多租户空间隔离 eBay智能营销机器学习训练平台 •模型编排 •基于Airflow的工作流引擎 •统一模型模块接口 •使用airflow扩展,提供模型开发工具(SparkSubmit,Xpark等) •低代码AutoML方案 (Ludwig) eBay智能营销机器学习训练平台 •计算集群多样性 •离线统计模型–Spark/Hadoop/Python •神经网络模型–GPU集群 •特殊需求-独享集群 •特殊版本 •独占资源 eBay智能营销机器学习训练平台 •模型运行监测 •运行状况、时长、失败率 •资源使用情况(Yarnlog) •离线测试 •在线模型发布 •容器化部署 •eBay的智能营销 •eBay智能营销的特征平台 •eBay智能营销的机器学习训练平台 •eBay智能营销的模型A/B测试平台 •未来展望 eBay智能营销模型A/B测试平台 •模型与A/B测试 •正式上线的最后一环 •真实数据的模拟与收集 •模型A/B测试的难点 •快速集成 •测试指标的自动化计算 •在线实时分析和可视化 eBay智能营销模型A/B测试平台 •数据 •数据源统一 •数据计算方式统一 •数据质量保证 •数据洞察 •及时性 •可视化 eBay智能营销模型A/B测试平台 •指标数量多、增长快、变化迅速 •100+基础指标(参与度、GMB、行为、算法模型指标) •N渠道x时间窗口x归因逻辑=1500+最终指标 •评估方法灵活、可扩展 •分组平衡、置信度、异常报警 •实时多维度分析 eBay智能营销模型A/B测试平台 •在线实时分析 •多维度分析、动态capping、Lift与置信度计算 •百亿级数据+秒级查询 •基于开源列式OLAP数据库引擎的定制方案及其优化 •动态分析可视化方案 •基于Redash开源方案的定制优化 •优化:Python语言扩展、预定义函数、自定义可视化组件 •eBay的智能营销 •eBay智能营销的特征平台 •eBay智能营销的机器学习训练平台 •eBay智能营销的模型A/B测试平台 •未来展望 未来展望 •特征动态定义语言(DSL) •运算资源优化管理 •推荐系统框架 •向量数据库