城市大数据管理中心 大数据资源平台概要设计方案 目录 1 背景与需求分析 2 总体架构设计 3 平台功能设计 4 平台数据综合应用 5 项目实施方案 为建设卓越全球城市,实现政府治理能力现代化目标,由市大数据中心牵头,在政务公共数据管理和互联网政务服务方面采取了一系列的实践工作。根据《市公共数据和一网通办管理办法》要求,前期已在“一网通办”的政务服务领域进行了信息化项目建设,在提升了政府治理能力和公共服务水平的同时,也产生了汇聚全市政务公共数据,探索政务服务领域应用的需求。 市大数据中心作为全市政务数据的主要管理单位,承担着政策本地化落实、政务数据交换、大数据应用研究、信息化建设运维以及其他数据相关的工作职责,从中心成立之初便开始研究政务数据管理和应用的方法,去年年底探索了以政务数据交换共享为核心的实践,但随着对中心职能的理解加深,我们认为中心不仅作为全市政务数据的“枢纽中转中心”,更应该成为各政务服务条线领域的“归集管理中心”,为本市的经济活动、公共事业、社会关系、人员密度等各城市管理领域提供数据层面的最大支撑。 整体共享协同数据科学管理 城市高效运行 精准城市服务 公共数据共享 社会数据协同 条线业务协同 数据服务开放 数据完整归集 数据实时同步 资源目录健全 数据全面治理 应急事件响应 事件风险预防 社会治理 宏观经济 市场监管 生态保护 大数据中心自去年开始,根据整体规划启动了市数据共享交换平台项目的建设,并于2019年1月开始正式进行全市范围的试运行。 平台建设内容包括: 1、总集成及部分应用开发:平台集成门户及整体平台的基础功能菜单级整合; 2、数据治理子系统:包含数据交换模块和服务管理模块,实现数据资源目录及三清单的管理,并提供市级数据库的对外发布利用; 3、数据共享交换子系统:实现数据交换引擎、统一调度引擎、任务管理、数据桥接等功能,以及数据湖数据的存储管理、共享与交换; 4、数据质量监管及支撑子系统:实现数据质量管理功能,包括数据质量规则制定、数据质量稽核、数据质量问题闭环管理; 平台接入52个委办的公共数据,每月16亿条以上,数据总容量在176.0TB,人口库预计46.75TB,法人库预计1.78TB,空间地理库预计7.99TB,电子证照库预计 91.05TB。 5、大数据支撑管理子系统:包含市级数据湖和市级数据库,汇聚“四大基础库”、“市级统建系统”、“各市级委办系统”、“各行政区系统”的经过初始治理的原始数据;并存放经过一系列清洗、转换、加载、治理步骤后的高质量的政务数据资源,为城市管理、公共服务等提供数据来源; 在数据共享交换平台项目试运行期间,随着数据存储量的增长、数据交换共享需求量的增加,逐渐发现平台存在一些问题。 源端数据标准各异,加工存在技术壁垒数据共享时效性要求无法满足业务需要 •数据湖&数据库缺乏统一规划,数据标准需继续制定完善 •现有平台应用支撑能力较为薄弱,容易形成数据沼泽 •前期平台未规划数据实时采集技术,无法支撑高效业务协同 •数据治理层面未考虑国家资源平台建设要求,需重新设计系统功能实现 城市管理数据缺乏,精准服务无法开展全生命周期安全管控能力有待提升 •数据共享和数据开放能力不全面,开放门户使用价值不高 •未规划主题/专题领域的数据综合应用,应用创新动能不足,需进行补充完善 •数据安全管控仅考虑部分安全应用,数据全生命周期的安全管控存在短板,需整体提升安全防护能力 源端数据标准各异,加工存在技术壁垒 缺乏实时归集技术,数据共享协同低效 城市管理数据缺乏,精准服务无法开展 全生命周期安全管控能力有待提升 建设目标 •聚:推进人口、法人、空间地理库数据源整合,促进 电子证照库对接利用。逐步推进社会数据、互联网数 据等采集汇聚 •管:构建一站式数据资产可视化管理,通过对数据资 产的血缘谱系和信息资源目录的统一管理,实现数据的全过程管理,以及各环节安全监管 •通:实现基于应用场景的数据资源授权管理机制,推 动公共数据按需充分共享。实现数据分级分类开放管理,扩展共享交换平台功能 •用:开展主题数据库建设,推动数据资源整合及数据 分析应用。开展数据应用模型及算法研究,探索数据服务模式创新 •安:打造整体安全管控体系,保证平台上政务数据在 数据汇聚、数据管理、数据共享、数据开放等全生命周期中的安全防护能力 结合项目的建设分项目标分析,认为本次大数据资源平台的建设内容应包括: 聚管通用 市级数据库 数据管理子系统 数据开放子系统 大数据综合应用 数据治理子系统 平台集成门户 安 数据安全管理子系统 数据开放子系统(含开放门户) 主要实现数据应用方管理、开放清单管理(含开放清单维护、开放目录关联、开放数据集维护)、数据开放管理等功能。主要实现首页、数据目录、数据应用、数据图谱、地图数据、互动交流、数据开发者、辅助事项、个人管理等各项门户的建设。 大数据综合应用 通过宏观经济、市场运行、民生幸福、城市立方体等专题应用的建设,构建大数据综合应用示范辅助领导决策,构建应用管理中心支撑数据应用,以为各部门提供优质的数据服务。 数据安全管理子系统 主要实现安全基础功能管理、数据安全审计、风险识别管理、数据安全管理、敏感数据管理、安全监管中心、数据安全采集等功能,以及对大数据资源平台各功能模块的安全嵌入。 市级数据库 主要实现公共基础库建设(含人口库、法人库、空间地理库)、支持公共主题库建设(含经济活动库、公共事业库、社会关系库、人员密度库)、支持公共专题库建设(含经济运行监测、宏观经济预测等19个专题库)。 数据治理子系统 通过国家资源管理子系统实现资源申请、撤销、审核、查询、消息、配置、应用及事项、使用单位对接、目录对接、业务流程对接、通知、监控模块对接等功能。 平台集成门户 主要实现多租户功能、运营中心、开发中心、消息推送、数据推送、个人信息管理、系统管理功能。 数据管理子系统 主要实现数据架构管理、数据关系管理、数据分级分类管理、数据异常管理、数据分析管理、数据流程管理、流数据处理、知识图谱、数据分层管理、数据运维管理、数据资产管理功能。 目录 1 背景与需求分析 2 总体架构设计 3 平台功能设计 4 平台数据综合应用 5 项目实施方案 5 数据安全管理子系统 统一运维 数据安全 身份访问控制 流量数据采集 日志采集及存储 告警监控管理及处理 安全审计 数据脱敏服务 安全风险识别 数字水印/签名管理 密钥管理 4数据开放门户 3平台集成门户 市领导各委办局分析人员区政府外部机构公民开发者运维管理者 数据开放门户 平台集成门户 门户 大数据综合应用宏观经济专题市场运行专题民生幸福专题城市综合体专题 7 大数据综合应用 2 数据治理子系统 4数据开放子系统 1数据管理子系统 应用层 数据共享服务数据分析和可视化服务 服务列表服务授权库表接口下载数据可视化工具数据探索工具 数据资产管理数据开发调度管理 数据资产资产总览资产目录资产地图资产报告数据架构数据管理数据异常 管理管理管理 共享及运营门户建设数据流程数据分层数据运维待办任务消息中心管理控制任务监控通知公告管理管理管理 台 事件服务中心规则定义事件采集事件处理事件分发 数据开放管理服务 数据接口数据图谱数据地图 数据运维 服务开放层 国家资源平台级联 资源申请资源审核消息管理模块模块模块 配置管理通知管理监控对接模块模块模块 数据处理层 对外开放区 数据沙箱数据沙箱数据沙箱 私有数据处理 对外数据开放脱敏区 非结构化数据区实时数据区离线数据区计算区 结应用租户应用租户应用租户 图片数据构实时事件批数据计算 化 数实时指标共享层(标签、指标) 据 文本数据区标准层(主题模型)流数据计算 实时模型 数据湖 分布式数据RDB分布式文件 存储存储消息队列图数据库存储存储 物联网数据(气象、摄像头…) 行业数据(金融、电信) 公共事业数据 政务数据(国家、市级、区) 数据管理子系统 1 6市级数据库 4数据开放子系统 平台运维 数据中心层 数据采集离线采集实时采集准实时采集流媒体采集数据导入上报 数 采集 据源 数据安全 接入识别) (安全风险 安全审计 告警监控管理及处理 日志采集及存储 数字水印/签名管理 数据加密/密钥管理 数据脱敏 流量数据采集 身份访问控制 统一运维 平台集成门户 数据开放门户 市领导各委办局分析人员区政府外部机构公民开发者运维管理者 门户 大数据综合应用 城市综合体专题 民生幸福专题 市场运行专题 宏观经济专题 应用层 事件服务中心 数据共享服务 数据分析及可视化 数据开放管理 数据地图 数据图谱 数据接口 数据探索工具 数据可视化工具 统计分析 服务监控 服务授权 服务列表 事件分发 事件处理 事件采集 规则定义 数据运维 数据资产管理数据开发调度管理 数据资产资产总览资产目录资产地图资产报告数据架构数据关系数据异常 管理管理管理 共享及运营门户建设数据流程数据分层数据运维待办任务消息中心管理控制任务监控通知公告管理管理管理 台 国家资源平台级联资源申请资源审核消息管理模块模块模块 配置管理通知管理监控对接模块模块模块 非结构化数据区实时数据区离线数据区计算区 结实时事件应用租户应用租户应用租户 图片数据构批数据计算 化数实时指标共享层(标签、指标)据 文本数据区标准层(主题模型)流数据计算 实时模型 数据湖 存储分布式数据消息队列图数据库RDB分布式文件存储存储存储 对外开放区 数据沙箱数据沙箱数据沙箱 私有数据处理 对外数据开放脱敏区 离线采集实时采集准实时采集流媒体采集数据导入上报 政务数据(国家、市级、区) 公共事业数据 行业数据(金融、电信) 物联网数据(气象、摄像头…) 服务开放层 数据处理层 平台运维 数据中心层 数据采集 采集 数据源 本期项目设备部署如下图所示,将在移动云(怒江机房)新增申请150台虚拟机设备、80台实体服务器用于本期软件部署。 大数据资源平台支撑数据共享交换(生产职能)、数据分析、数据开放三大核心数据服务,包括大数据资源区、对内共享交换区和对外开放区三大数据区。 对内共享交换区 共享交换数据 大数据资源区 离线数据区 实时数据区 非结构化数据 结构化数据 市级数据湖 融合租户 中心租户 主题库 基础库 市级数据库 对外开放区 对外开放脱敏数据 安全沙箱数据 大数据资源区:包括市级数据湖和市级数据库两大数据资源 -数据湖:主要存放市级政府部门业务数据库、未经加工的原始业务数据库,支持存储结构化、非结构化等多种类型的数据。 -市级数据库:主要用于存放经过一系列清洗、转换、加载、治理步骤后的高质量的政务数据资源。 对内共享交换区:主要用于存放全市各部门、各区政务数据资源汇集和共享交换过程中的数据,包括直接共享交换的数据和来自市级数据库加工后的数据。 对外开放区:主要用于存放对外开放的数据,通过单独的对外开发区与大数据资源区隔离,可以提供更高级别的数据安全保护。 角色 权限绑定 功能模块 管角色 中心用 管 管理员 用 审 用户 审计员 户权限管理员 管理权 授权 用角色 单位用户 使用权 审角色 权限审计员 审计权 委审 办管分配 局用 授权 下审 管 级分配 人员账号 机器账号 单 位用 •三权分立:管用审角色分离 •分级授权:中心租户统一为牵头单位进行管理权限的分配,单位内部权限设计由内部用户支撑 •人机账户分离:人员账号及机器账号实现互斥 1 背景与需求分析 2 总体架构设计 3 平台功能设计 4 平台数据综合应用 5 项目实施方案 3 平台集成门户 共享及运营门户 7 大数据综合应用 大数据综合应用 4 数据开放子系统 数据开放管理 数据开放门户 数据沙箱 5 数据安全管理子系统