字节跳动大数据平台安全与权限治理实践
1. 大数据安全体系现状和难点
- 治理原则:保证合规,兼顾效率。在面对政府监管和外部压力时,需处理好灵活筛选、保留和删除数据的需求。
- 主要问题:缺乏灵活的数据筛选、保留和删除功能,未能有效应对外部安全合规的要求。
2. 细粒度权限管控和治理
- 细粒度权限模型:支持多种权限控制模型,包括ID、名称、性别、国家、种族等列级权限控制。
- 新权限模型特性:
- A: DB
- B: 表
- C: 表+种族
- D: ID+姓名+性别
- E: 表+性别=男且国家在US或CA
- F: 国家+年龄+种族且国家在UK或US
- 灵活的权限授予机制:支持数据资源与授权主体灵活组合,自动审批占比超过30%,智能风险判断辅助审批。
- 智能审批:通过风险评分和标签返回审批结果,实现自动化审批和人工审批相结合,提高审批效率。
- 冗余权限治理回收:通过访问和鉴权双重判断,结合白名单和保留豁免机制,减少冗余权限,效果显著。
3. 资产保护能力
- 应用场景:加密方案,适用于大数据挑战中的数据链路长、数据量大、用户多等问题。
- 加密方案介绍:
- 数据内容加密:应用级高强加密,文件格式透明加密,HDFS加密文件系统,磁盘加密,需满足高数据一致性和高效性能。
4. 数据删除能力
- 删除需求场景:账号删除、滚动删除和其他大数据删除。
- 技术挑战:
- 传统HDFS数据删除方式覆写文件,系统I/O消耗巨大。
- 数仓存储在HDFS之上,列存储格式导致行级别删除效率低。
- 离线表数量庞大,对存储资源、磁盘IO、网络吞吐、计算资源及ETL调度系统构成挑战。
- 对业务资源的抢占。
- 解决方案:基于Bytelake降低覆写总量15倍,提升格式转换速度10倍,提升覆写速度80%,并通过系统优化提升整体性能。
结语
感谢您的观看。如有任何疑问或需要进一步的帮助,请随时联系我们。