行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

抖音电商数据治理体系和实践

商贸零售 2023-07-13 DataFunSummit2023：数据治理在线峰会 Dawn

抖音电商数据治理总结

1. 数据简介

数据规模：2020年6月至2023年4月，数据量呈爆发式增长。
计算资源：YARN计算资源增长60倍。
存储资源：HDFS存储资源增长40倍。
生产任务数：生产任务数增长20倍。

2. 数据治理挑战

质量问题：SLA稳定性、数据质量、口径一致性要求高。
模型稳定性不足：业务频繁变动导致模型产出时效性差。
资源成本失控：大数据资源成本占比高，降本增效需求迫切。
治理效率低：堆人力做治理，进度慢且成本高。
治理缺乏体系：问题复杂，重复治理频繁。

3. 稳定性治理体系化

分级体系：构建基于业务应用场景的分级体系，包括P0（超核心）、P1（核心）、P2（高优）。
SLA保障流程：业务定级、技术评估、试运行、正式值班、SLA签署。
血缘能力：通过血缘标签和优先级管理，提高治理效率。

4. 成本治理体系化

成本归因账单：建立清晰的成本账单和归因模型，提升成本意识。
计算成本模型：归一化计算资源成本，与业务挂钩。
技术优化：如HBO、shuffle优化、读取模型优化等，提升资源利用率。

5. 工具效率体系化

治理工具化平台：涵盖事前预防、事中监控、事后优化三个阶段。
一键治理：提升治理效率，支持自动化治理。
全生命周期联动：实现事中和事后的治理项融合，提供一体化视图。

6. 总结与展望

加强治理分析：遵循2/8法则，重视治理运营。
关键指标驱动：先降低污染速度，适当接受先污染后治理。
顶层设计：做好顶层设计，循序渐进。
未来展望：设计新版本健康分模型，业务成本模型，数据安全及质量体系化，拥抱前沿技术，如AI辅助代码生成等。

通过上述措施，抖音电商实现了数据治理的体系化和高效化，为后续的发展奠定了坚实的基础。

演讲人：李响火山引擎数据专家目录Contents 总结与展望成本治理体系化工具效率体系化稳定性体系化抖音电商数据简介 01抖音电商数据简介抖音电商业务简介抖音电商业务发展抖音电商数据规模快速增长抖音电商爆发式增长，团队规模不断扩大，任务增速快，数据量级巨大，对于数据治理是新的挑战和命题。抖音电商数据治理面临的问题治理问题 ØSLA质量：质量问题是数据治理面对主线问题，随着业务不断发展和成熟，对于SLA稳定性、数据质量、口径一致性要求越来越高。 Ø模型稳定性不足：业务频繁变动，历史模型设计不能灵活适配新业务，通常用打补丁的方式解决，耦合严重，导致模型产出时效性差，消费成本高。 Ø资源成本失控：业务数据膨胀速度非常快，大数据资源的成本占比很高，降本增效的前提下，对于成本优化的诉求越来越高。 Ø治理效率低：数据治理效率低，很多时候是堆人力在做，成本高进度慢，很难达到预期； Ø治理缺乏体系：问题越来越复杂，单点难解决，重复治理次数越来越多，很多治理动作是缓解，并没有从根本上解决问题。以上问题基本上是每个数据团队都会遇到普遍的问题。超大规模数仓会带来哪些新的挑战？日新月异，逆水行舟，雪崩效应规模化的挑战挑战一、劣化速度快：任务&表的资产增速越来越快，消耗资源成指数级上升，治理速度vs劣化速度；很容易做了很多治理工作，一看整体健康度不升反降，“按下葫芦起了瓢”。挑战二、治理资源少：电商开发同学的需求压力很大，在治理方向投入精力有限；研发团队规模大方向多，信息传递和执行力都有很大挑战，治理的同学的推动压力也非常大。挑战三、规范抽象难：全域兴趣电商业务场景非常复杂，规范抽象难以灵活的适应多变场景，越细致的规范越难以落地；如何平衡规范和灵活业务支持，需要解决的一个挑战。挑战四、优化难度高：数据规模上升到一个量级，很多常规手段无法实现，技术优化能力要求很高，有不少任务是一天分区几万亿行的数据运算，还有单stage的shuffle量达几百TB。量变引起质变，传统的治理方法很难应对以上挑战抖音电商数据治理的顶层框架抖音电商数据的建设思路是：建设体系化的治理策略，沉淀方法体系、价值体系、标准体系；从数据治理->数据管理+数据治理，实现标准化、数字化和产品化的全面体系。打造体系化的数据治理架构，驱动分布式自主治理什么是体系化数据治理？体系是一个科学术语，泛指一定范围内或同类事物按照一定的秩序和联系组合的整体。体系化就是使事物成为体系的过程。我们理解体系化数据治理是把某个方向治理形成一个整体有序组合的闭环框架；具备合理的顶层治理设计，有效的治理运营策略，高效的底层技术支撑。数据治理为什么难落地？驱动分布式自主治理先思考3个问题：内部驱动力+外部推动力自动化数据治理有效精准的北极星指标开发者视角治理视角 1、开发同学为什么要做数据治理？2、开发同学的治理工作量大不大？3、治理同学&上级协助推动工作量有多大？ 02稳定性治理体系化稳定性体系——超大规模数仓的稳定性挑战 Ø电商业务的SLA要求高Ø新增&修改任务数量大Ø任务管理工作量极大Ø任务优先级灵活多变Ø堆资源暴力解决运行慢问题Ø调优能力要求高光靠治理团队无法解决这些问题，怎样撬动杠杆分布式治理呢？稳定性体系——基于业务应用场景的分级体系构建级别+应用+SLA的分级体系，生成应用标签，确定构建底层基础。稳定性体系——基于血缘能力的任务打标打标流程 1.生成虚拟尾任务节点，挂载依赖模块；2.在尾任务节点打上应用标签；3.依赖强大的血缘能力，完成上游链路所有任务打标；4.根据重要性迁移到核心队列资源保障；5.每日通过血缘刷新链路标签；6.V2版血缘链路支持T+1和T+2的识别。稳定性体系——业务应用与保障资源匹配关系稳定性体系——SLA申报保障流程技术评估：业务定级： Ø链路大任务评估（无超过1小时任务）Ø任务运行时长波动性评估Ø任务预警buffer评估Ø任务事故buffer评估 Ø评估业务重要性Ø如果SLA破线，影响大小以治理团队专业保障为驱动力，加强准入流程，提升整个团队的治理稳定性意识，引导开发同学主动治理。稳定性体系——二维分级模型和收益问题思考：传统的任务分级是单纬度；只从一个维度分级，是否能较好识别某个应用/任务的重要性？收益 1、之前比较散乱的SLA管理，面对几万任务优先级运维，当前只需要管理30+的核心应用标签流程，治理运维工作大大降低。 2、通过血缘反向递推，30+的核心应用覆盖了全链路35%的任务数，治理团队重点关注保障。3、对于研发同学来，能很清晰看到，任务被哪些核心应用依赖，在变更时候更好评估，提升变更质量。4、通过开发平台的标签筛选能力，很灵活的匹配资源，T+2的血缘识别，更好的实现资源节约。5、拓展能力：资损标签，运行时间，灾备降级等标签。通过应用血缘标签和优先级二维分级法进行管理，在管理成本和灵活度取得一个比较好的平衡。 03成本治理体系化业务高速增长的成本挑战业务高速发展和降本增效背景下，如何平衡业务需求和成本的增长？成本四大挑战 ü业务需求压力大ü成本失控ü成本意识薄弱ü治理意愿低建立数字化的成本模型，提升成本意识以前成本优化的收益评估时候，经常说优化xxPB的存储资源，计算资源消耗减少xx%/xxcore*h，ch减少存储xxTB；但对于不同组件资源的成本很难横向对齐。通过归一化到真实的成本金额，与业务挂钩，更直观，也可以横向对比。量化研发同学的资产成本，提升成本意识；强化治理的收益，提升治理积极性计算成本账单模型（示例）计算成本特点收益计算成本是数据第一大成本 ØYARN按quota收费，无论使用率多少，成本不变。Ø离线计算周期特性，凌晨高峰期，白天低谷。ØYARN有多种机型，cpu和内存共有6个计费项 l明确计算资源成本单价。l较为清晰看到子方向/个人的成本构成，鼓励自主治理。l计算成本模型能较好的引导治理方式：资源归一化模型治理方式 Ø将6个计费项目按照费用比例，折算到一个计费项目（cpu） ①优化top任务，降低资源申请/提升利用率②下线无效/低ROI任务③任务编排，高峰期任务移到低谷期运行④任务从高成本队列迁移到低成本队列分级定价模型 Ø分级系数：高峰期1.5，低谷期0.5，平峰期1Ø队列系数：依据资源归一化模型系数Ø定价：真实成本/总资源消耗=单价按照季度调整单价治理团队核心工作从推动研发同学治理，变成帮助研发同学，准确识别TOP治理收益，推荐最优治理策略。成本治理体系——成本归因账单建立清晰的成本账单和归因模型，让同学很容易诊断，为什么成本上涨了，为什么成本下降了？周/月度账单功能帮助owner按周/月粒度感知成本变化情况和变化归因，以飞书卡片方式推送用户。 Ø帮助开发同学看清成本和治理目标Ø支持开发同学自主分析成本变化原因，及时发现/预防成本恶化；Ø帮助开发同学拆解治理目标，规划可达成目标的治理路径；Ø建立成本心智，感知治理目标和实际治理收益的对比情况；任务自主治理收益量提升200%，占总体治理收益的65%。成本治理——技术优化提升资源利用率 HBO：建设电商任务个性化的自动调参能力。 Shuffle优化：针对shuffle阻塞问题，进行打散/限流优化。读取模型优化：读取扫描万亿级别的大表的任务优化。虚拟core精细化：cpu虚拟化，能精确到千分之一核，实现灵活分配。超发能力：底层container超发，队列超发等技术。收益价值：CPU利用率从60%->78%，极大节省了资源成本，且在持续提升中。 04工具效率体系化治理工具化体系——体系化定义治理生命周期数据治理阶段有较多的划分方法，结合经验和抖音电商的实际情况，我们以数据开发流程的来划分事前、事中、事后。事前预防：通过系统化的方式，上线/调试前的检测；核心是通过工具化的方法事前预防各种问题的产生，主要围绕增量/变更任务。事中监控：任务日常运行，实时预警，同时也涵盖实时问题诊断和复盘；事中的治理都是有时效要求，必须在一定时间内（短期）完成。事后优化：深度分析现状，通常以专项的形式进行数据治理；事后的治理一般需要深度治理，组织专项制定计划，主要针对存量任务，因此周期一般较长，收益也比较清晰。治理工具化体系——事前管控平台Code-CT ü质量提升，事故降低：有效的避免数据事故以及报警，在实践中不断打磨，贴合抖音电商业务场景； ü效率提升，常态治理：一些基础规范无需推动治理，经过自然迭代，不符合规范的情况逐步降低。 ü插件配置，通用规则：建立通用检测规则库，实现规则配置化。调试提醒（弱规则）上线阻断（强规则）拓展案例：模型重构的时候，上线时通过旧表禁用，对下游切换效率带来比较大的帮助。抖音电商数据生效规则37个，Q1季度code-ct触发规则检测47985次，提醒6241次，拦截3897次，结合稳定性治理，夜间报警量下降80%。治理工具化体系——事中巡检/事件触发平台 l实时巡检（触发式）：一旦有异常及时发出，研发同学立刻接到通知处理；需要当天调度前处理完。 l调度前巡检：大部分规则在这个阶段生效，在22:00/23:00时间，进行跑批前巡检，规避第二天早上跑批风险，需要当天调度前处理完。 l调度中：主要依赖开发平台的基础能力。 l调度后巡检：扫描任务的运行状态，针对识别潜在oom、数据倾斜、异常运行时长隐患，进行预警，一般需要48小时处理完。治理工具化体系——事后一站式治理平台一站式治理平台：聚焦在执行阶段的工具产品化，面向开发同学的一站式治理操作运营平台，实现统一工作视图，统一操作入口、统一消息通知、一键治理等能力。治理工具化体系——治理项分级定义 P0治理项，核心事中的治理项目，特点是很强的时效性，短周期必须处理完成，一般当天处理或者48小时内，未处理有升级机制。常态化治理 P0 P1治理项，核心事后的治理项目，专项推进治理，以周期形式推进，符合研发同学集中治理的习惯，一般周期为2周或者1个月，核心关注治理完成率。周期式治理 P1 P2治理项目，支持灵活的治理项目，不强制要求治理周期，鼓励有意愿的同学主动治理；同时支持灵活自主治理，也能支持各种类型治理任务。灵活式治理 P2 一键治理，提升治理效率提升一键治理是自动化治理的核心，治理团队致力于不断提升治理项的自动化水平；当前已经具备一定代码生成能力，未来在治理和开发效率提升场景均有较大的前景。治理工具化体系——全生命周期联动 05总结与展望思考跨团队学习（综合能力）一些心得我们能不能把治理当成一个业务来运营？ ü加强治理分析（2/8法则）ü重视治理运营ü关键指标驱动ü先止损降低污染速度ü适当接受先污染后治理ü循序渐进，不追求一步到位ü做好顶层设计 l设计新版本健康分模型，解决健康分通用问题（健康分版本问题、模型短板效应）l业务成本模型，成本分摊到业务上，结合资产消费情况，评估应用价值ROI。l数据安全体系化、数据质量体系化、数据开发流程体系化。l拥抱前沿技术，AI辅助代码生成，自动代码优化等。 —THANKS— 感谢您的观看

点击免费查看完整报告

抖音电商数据治理体系和实践

抖音电商数据治理总结

1. 数据简介

2. 数据治理挑战

3. 稳定性治理体系化

4. 成本治理体系化

5. 工具效率体系化

6. 总结与展望

你可能感兴趣

施检军-抖音集团指标管理和消费体系实践

7-4 数据驱动业务发展——业务指标数据体系建设及集市治理实践

5-5 工业数据治理和数据资源化思考与实践 -钟虓

数据治理顶层架构设计和数据战略制定实践案例分享(规划篇)

王冉 - 中小银行数据安全治理体系建设实践

中国电信PaaS治理体系实践——肖彦昌

数安法要点小结与应对建议：构建全面的网络安全和数据保护治理体系

中英自然资本治理体系与地方实践比较研究-共识与挑战

互联网行业数安法要点小结与应对建议：构建全面的网络安全和数据保护治理体系

2022抖音电商平台治理年度报告