特征平台概览
- 存储服务:包括特征存储、事件存储、流批一体运算等。
- 数据流:涉及MySQL、Kafka、EMR、HBase、ClickHouse等多种存储技术。
特征存储服务
- 同步特征:支持实时写入和离线修正。
- 实时特征:支持复杂实时逻辑,使用流批一体代替传统实时链路。
- 离线特征:支持复杂离线逻辑,使用传统离线链路。
流批一体方案
- 问题:现有模型策略未充分利用数据,实时输入项逻辑需优化,模型策略开发上线需改进。
- 解决方案:
- 数据:存储状态变化数据,支持任意时刻的数据切片状态。
- 逻辑:流批一体,以流为主,逻辑一致。
- 执行:流、批、调用一体化,自适应不同场景。
- 开发:使用“取数”而非流合并,降低实时开发门槛。
- 测试:支持任意时间段回溯测试,提高实时开发测试速度。
- 上线:自助式的流批一体模型开发上线,减少沟通环节。
事件中心
- 存储数据流:使用LAMBDA架构存储所有变化数据,每日修正。
- 存储结构:包括INDEX_TABLENAME、TABLENAME等表结构。
- 读取数据流:支持重新加热机制,确保数据一致性。
- 水印机制:确保当前值同步完成,避免流Join。
PyFlink
- 数据流:触发逻辑、取数逻辑、输出逻辑,底层封装随流、批环境变化自适应。
- 典型使用流程:选择触发流,编写取数及预处理逻辑,设置取样逻辑并试运行,获取试运行结果,发布模型,发布作业。
模型策略调用方案
- 方案:特征存储服务方案、接口触发——轮询方案、接口触发——消息接收方案、直接消息接收方案。
- 数据流:涉及KAFKA、HBASE、EMR等存储技术。
- 时序:详细描述了各种方案的具体步骤和时间顺序。
总结
上海数禾信息科技有限公司构建了一套完善的特征平台,涵盖特征存储、流批一体运算、事件中心、PyFlink等多个模块,旨在优化模型策略的开发、测试和上线流程,提升数据处理的一致性和效率。