orisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia202 DorisSummit Asia2024 DorisSummit ApacheDoris在区域医疗影像平台中的应用 Asia2024 DorisSummit Asia2024 国家健康医疗大数据(东部)中心王建大数据研发经理 DorisSummit 目录01 02 背景介绍架构演变 orisSummit Asia2024 Asia2024 mit Asia2024 DorisSummit Asia2024 DorisSummit A DorisSummit DorisSummit Asia202 03场景应用 Asia2024 04未来展望 orisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia202 DorisSummit Asia2024 DorisSummit 01 Asia2024 DorisSummit Asia2024 背景介绍 输入你的小标题 外线框是文字输入区参考线,请在正式稿中删除。文字:根据文章长度选择适合的文字尺寸,以32-24号字为宜。 输入你的小标题 输入正文内容,根据你的文章内容长度来进行页面最终调整。输入正文内容,根据你的文章内容长度来进行页面最终调整。 orisSummit Asia2024 DorisSummit Asia2024 mit Asia2024 DorisSummit Asia2024 DorisSummit A DorisSummit Asia2024 DorisSummit Asia202 背景介绍 Asia2024 DorisSummit 数据特殊性 DorisSummit Asia2024 DorisSummit 及时性要求高数据重复性高数据采集点多 orisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia2024 Asia202 •影像的结构化数据及非结构化数据上传后,在临床需要进行及时的应用。但是因为影像数据复杂度高,需要多源数据进行关联并对多质量指标进行稽核,并进行预警、处理,保证不对临床的数据服务产生影响。 •影像数据存在大量的重传、补传的动作,对多场景的数据操作进行兼容,保证数据唯一性及可靠性。同时需要对上传记录进行回放。 •影像平台涉及医疗机构2000余个,每个医疗机构的状态以及条件千差万别,需要对各医疗机构的多种数据情况进行兼容。 Asia2024 DorisSummit 行业特殊性 DorisSummit Asia2024 DorisSummit 关联难度大指标口径多数据服务场景多 orisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia2024 Asia202 •同一个检查的数据分批上云,时间差不确定。同时,单一放射检查的涉及的数据类型较多,需要对多数据体进行关键计算,JOIN难度大。 •以数据质量模块为例,需要对27个核心指标,共140余个质量指标进行监控。 •需要对数据质量预警、数据质量看板、数据质量监控、质量代办、BI大屏、报表以及数十个业务系统进行数据支撑。 orisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia202 DorisSummit Asia2024 DorisSummit 02 Asia2024 DorisSummit Asia2024 架构演进 orisSummit Asia2024 mit DorisSummit A Asia202 Hadoop体系特点 DorisSummit Asia2024 DorisSummit 组件多:因为Hadoop架构的特殊性,导致实现从采集、治理、存储到服务的全链路数据流程所需要的组件庞杂,在平台中,拥有超过20个开源的组件以及30余个自研的平台管理服务; 运维难度大:组件多导致运维成本高,甚至单独一个组件的兜底要求也非常高; 部署成本高:一套完整的Hadoop集群,需要的管理资源较多。在集群规模不够大的状态下,计算节点的边际成本较高; Asia2024 DorisSummit Asia2024 较难对新场景进行兼容:随着业务的发展,数据实时性的要求愈加的高,Hadoop(Hive)的体系,无法满足实时性的需求; Asia2024 DorisSummit 拓展性较差:体系内的单一组件只面向单一的能力。面相新的业务需求,只能拓展新的组件进入集群。带来极高的维护成本。 orisSummit Asia2024 DorisSummit Asia2024 mit Asia2024 DorisSummit Asia2024 DorisSummit A DorisSummit Asia2024 DorisSummit Asia202 场景痛点分析 业务痛点 改进方向 数据质量反馈周期长T+1的反馈周期,无法及时反映整改措施的有效性,极大拉长了工作周期 打造高效的大表交叉查询在对院端数据进行实时质量计算的同时,提供能将指定时间段的检查数据和存储日志数据进行交叉查询的能力,解决最关键的影像完整性检测问题。 缺乏实时监控能力普通的流式计算难以参照历史数据,无法实现对应用数据监测的多维度分析。 构建实时-历史数据比对能力在不仅对应用日志进行实时存储,也可以将实时日志按照日、周、月等较大时间维度进行统计分析,有效支撑各种评估维度。 指标开发过程长需要针对大量指标进行定制化开发,牵涉人员多、流程长、工作量大。 提升指标实时计算性能基于明细数据对指标进行实时计算,无需开发多层数据源,保证数据出口固定,支持指标统计维度的自由设计。 难以支撑分析业务数据即席分析与数据开发共用平台,操作难度大、数据复杂,且容易对开发业务进行干扰。 提供数据分析查询专用入口将明细数据提供给数据分析业务使用,通过运维手段保证资源占用情况,提升数据分析师的工作效率和工作体验。 Asia2024 DorisSummit 期望的数据底座 简单 DorisSummit Asia2024 架构轻量化开发便捷维护简单 强大 DorisSummit 具备强大的计算引擎,实现快速写入、快速查询,特别是在当前即席及实时的场景,能给与更多的支撑 orisSummit Asia2024 mit DorisSummit A Asia2024 Asia202 全面 Asia2024 覆盖采、存、治、用的数据生命周期 稳定 DorisSummit 稳定运行、故障修复、资源管理 orisSummit Asia2024 DorisSummit Asia2024 mit Asia2024 DorisSummit Asia2024 DorisSummit A DorisSummit Asia2024 DorisSummit Asia202 新老架构图 orisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia202 DorisSummit Asia2024 DorisSummit 03 Asia2024 DorisSummit Asia2024 案例分享 orisSummit Asia2024 mit Asia2024 DorisSummit A DorisSummit Asia202 案例背景 DorisSummit Asia2024 DorisSummit 在省级影像平台中,需要对从数千家医疗机构采集的数据进行质量评估及预警,以保证良好的数据质量,实现影像数据服务环节的稳定性以及提升用户的体验。 Asia2024 DorisSummit Asia2024 数据维度多、数据量大、对实时性要求高等问题成为质量改善的阻碍。在2023年初,团队在数据质量管理的场景探索质量改善的技术方案。 Asia2024 DorisSummit 数据质量管理-数据流向图 DorisSummit 数据源采集数仓服务场景 医疗机构信息 服务数据 质量推送 Asia2024 DorisSummit 底座日志 Flink 维度事实数据 数据API 质量告警 Asia2024 人员信息 云边采集 Catalog DorisSummit 明细数据 JDBC 异常代办 Asia2024 自动补偿 原始数据 …… 质量看板 orisSummit mit A Asia202 Asia2024 DorisSummit 质量分析 Asia2024 DorisSummit 代码示例 CREATETABLE`dws_xxxx_xxxx`( `k_1`varchar(255)NULLCOMMENT'主键1', `k_2`varchar(255)NULLCOMMENT'主键2', `k_3`varchar(255)NULLCOMMENT'主键3', DorisSummit `k_4`dateNULLCOMMENT'主键4', `v_1`dateNULLCOMMENT'值1', `v_2`int(11)NULLCOMMENT'值2', `v_3`int(11)NULLDEFAULT"值3", .... `time_1`datetimeNULLCOMMENT'计算时间' )ENGINE=OLAPUNIQUEKEY(`k_1`,`k_2`,`k_3`,`k_4`)COMMENT'质量原子指标结果表' Asia2024 DorisSummit PARTITIONBYRANGE(`K_4`)()DISTRIBUTEDBYHASH(`k_1`)BUCKETSxPROPERTIES( "xxx":"xxx","function_column.sequence_col"="time_1" ); INERRTINTOdws_xxxx_xxxxSELECT... from( --增量数据 WITHxxx_schemaAS(SELECT... Asia2024 FROM( ... WHERE... )a)select... FROMALEFTJOINBLEFTJOINC ... Asia2024 ON... WHERE... INSERTINTOdws_xxxx_xxxx(k_1,k_2,k_3,k_4,time_1,__DORIS_DELETE_SIGN__) SELECT k_1,k_2,k_3,k_4,time_1,trueFROM( DorisSummit SELECT ..., rank()over(partitionby...orderby...desc)asrank FROMdws_xxxx_xxxxWHERE... )t WHEREt.rank>1 orisSummit Asia2024 A DorisSummit Asia202 运行效率:1H+提升至30s依赖组件:6个降低至3个 数据模型数:15个降低至2个,另外增加6个视图 mit 质量反馈周期:由原来的T+1,提升至准实时(分钟级) 在数据去重,多表JOIN,即席查询等场景,展现了强大的能力 orisSummit Asia2024 Asia2024 mit Asia2024 DorisSummit DorisSummit A DorisSummit Asia2024 Asia202 应用示例 DorisSummit Asia2024 DorisSummit 质量代办质量监测 orisSummit Asia2024 Asia2024 mit Asia2024 DorisSummit DorisSummit A DorisSummit Asia2024 Asia202 应用示例 Doris