爱奇艺大数据大规模实践 演讲人:孙斌 企业愿景 信息革命极大地提升了社会生产效率,人们节约出了越来越多的时间,这都需要以健康的方式消耗掉。娱乐是健康地消耗掉剩余时间最主要的方式之一。 爱奇艺是一家科技公司,也是一家娱乐公司,是科技创新驱动的一家娱乐公司,用技术创新降低娱乐成本,让用户更便捷地获得更多快乐,这是爱奇艺与传统娱乐公司最大的不同。 伟大有两方面内涵:一是商业层面的,是指获得卓越的商业发展,做到用户多、收入多、规模大、服务和影响范围大;二是精神层面的,是指我们要以内容价值观影响千千万万的人,特别是年轻人,帮助他们树立健康的价值观,让他们的成长过程变得更快乐,精神更充实,这是更有意义的事情。 我们更懂娱乐 通过不断制造爆款内容来引领行业 内容 合作 内容合作伙伴 同时为广告主带来 创新的解决方案伙伴 人工智能和大数据 用户 助力深入了解用户 独特的企业文化 我们通过独特的企业文化来解读娱乐 我们集科技人才和创意人才的DNA为一体 科技 研究和开发科技 50% 硅谷文化 创意 内容与运营创意 50% 好莱坞文化 爱奇艺大数据大规模实践—— 数据中台架构 数据中台架构 C端 数据链路 离线 离线计算 数仓 离线存储 近实时数 数据湖 仓 实时 实时计算 数仓 MQ copy MQ copy MQ B端 用户画像 内容理解 报表分析 智能分发 收入成本 公司决策 横向协同 业务运营 目标考量 业绩增长 生产层接收层采集层 加工层 使用层 业务层 算法工具 资产管理数仓工具质量工具 通用数仓、标签、集市服务 数据治理平台 通用数仓,兼容上游变更 •存储兼容 •引擎兼容 •地域兼容 •… 信息透明 数据透明方法论透明数据安全 数据分享 •数据集成 •数据接口 •数据脱敏 •… 数据安全 数据资产对上层统一、透明 解决方案服务:数据场景、分析工具、策略应用等 画像标签 面向业务的数据集市 行为标签 内容信息库 资 •血缘管理•数据热力图•数据地图•… 产管理工具 数 •投递规范•投递管理•灰度质量监控•… 据质量工具 数 •业务建模•数据建模•物理建模•… 据仓库工具 统一标准数据接入:用户全域数据|IP标准化数据|业务数据 爱奇艺大数据大规模实践—— 数据发展过程 发展过程 零散化 原始方式进行数据开发脚本化管理和运维 数据零散,缺乏统筹规划体系缺少标准化 标准化 投递规范升级数据加工手册数据仓库建设数据服务平台 体系化 组织构建流程规范实施流程工具支撑效果评估 2017 2018 2019 2020 2021 2022 平台化 智能化 立体化 离线开发平台实时开发平台数据集成和接入 机器学习平台深度学习平台数据质量模型 数据湖Iceberg 近实时链路建设 爱奇艺大数据大规模实践—— 数据中台建设理念 数据中台理念 立体化 产品化 标准化 理念 智能化 体系化 实施是从落实角度,对数据治理的标准(包括目标和方式等)进行具体的落地,确保治理工作的正常运转; 数据与人工智能深度结合,在为用户提供智能化的同时,数据中台自身也需要智能化 面对不同层级的用户,提供相应的数据产品,支持用户进行自助分析,最大限度发挥数据价值 通过对数据体系各个环节进行标准化,保证数据质量,有助提高数据流转和使用的效率 通过打造离线、近实时和实时数据链路,构建立体化的数据体系,满足业务对时效性和准确性的不同需求 立体化 大 湖 快 数据规模 时效性 通过Hive、Spark等离线引擎的升级,对巨量离线数据提供准确高效的数据计算能力,支撑核心数据绝对准确性的业务要求; 引入Iceberg数据湖,通过Flink进行数据入湖,降低数据可见的延迟时间,提高大规模数据的分析时效性,同时降低实时链路的成本; 通过Flink和Kafka等实时组件的最佳搭配,提供秒级延迟的数据流,结合实时数仓,支撑推荐、用增等模型的快速反馈; Pingback 实时采集 离线采集 Kafka 原始数据流 Flink 实时解析 Kafka ODS流 Flink 实时加工 Kafka DWD流 实时计算平台 Flink 实时解析 Iceberg ODS层 Flink 近实时加工 IcebergDWD层 魔镜工具 业务数据库 HDFS 全量数据 MR任务 ETL解析 Hive ODS层 SparkorHive 离线计算 Hive DWD层 离线计算平台 标准化 规范包括标准和流程,是对实体或者行为的标准化要求;覆盖生产、采集、加工、存储、使用等多个环节,涉及到多种标准和流程,并需要不同职责、不同团队的人员遵守和执行 行为投递规范 数据库定义规范 合作数据规范 生产规范 安全标准 数据分级标准 权限管理流程 数据流转流程 数据开发流程 上线审批流程资源评估标准 技术规范 规范 数仓规范 数据建模标准 指标定义标准 维度定义标准 投递质量标准 指标质量标准 质量标准 保障流程 字典质量标准 重要等级标准 故障定级标准重点保障流程 体系化 支撑 数据仓库平台 Pingback工具 数据开发平台 数据产品工具 元数据服务 统一权限系统 数据质量平台 链路治理平台 数据价值系统 资源治理平台 管理组 制定目标 审核标准 考核结果 持 续监控监控大盘监控监控 质量链路成本技术安全 性 周期性 项目评估 结项报告 实施规范 生产规范 技术规范 质量标准 安全标准 数仓规范 保障流程 组织评估 实施 遵守制度 业 务实施方案 组 负责结果 方向 数据质量治理 生产链路治理 数据安全治理 数据成本治理 数据效率治理 数据统一治理 数据服务治理 过程 确定目标 分析现状 制定方案 推动实施 跟进过程 考核结果 拆解目标 管 理制定方案 组 发布流程 规范 体系规范 运行推进评估 机制流程标准 智能化 智能服务 打通机器学习和深度学习平台,实现从源数据到特征工程、模型训练和部署的一体化流程 智能分析 为业务分析人员提供丰富的机 器学习模型,实现数智能化 智能检测 在数据质量环节引入更多的异常检测算法,及时发现数据异常,同时提供异常原因的归因功能,方便定位异常原因,保障数据的可靠性 智能检测 投递质量 字段异常 智能归因 智能服务 用户 可视化拖拽式算法运维 智能化 模型训练 数据预处理 辅助调参 特征工程 模型评估 模型 推演服务 离线推演 在线推演 智能分析 算法核心 趋势预测 效果分析 分类 聚类 回归 图算法 深度学习 产品化 产品运营 数据分析 •关注一定范围的数据 业务报表系统 BIPortal AB 测试平台 天秤 内容运营平台 星图 用户运营平台 脸谱 数据产品 自助查询平台 魔镜 自助SQL查询 庖丁刃 离线开发平台 Babel 机器学习平台 DT 深度学习平台 Opal 实时开发平台 RCP 数仓平台 易用性 垂直领域 •数据需求常规 通用性 •数据技术一般 连续性 扩展性 •业务理解全面 •数据分析深度深 全面性 •数据技术较好 数据研发 •数据需求驱动 •处理复杂度高 •数据技术较好 便捷性 自动化 可控性 发挥用户大数据、内容大数据的价值 用户 亿级用户 海量用户属性/行为/偏好…数据 内容 多元内容 海量文本/图像/视频/音频…数据 爱奇艺大数据大规模实践—— 内容制作 智能制作行业共赢 知文剧本评估 基于AI算法、NLP技术对剧集剧本、电影剧本、小说等多种形态的内容进行理解,分析其质量和衍生价值,辅助专家决策、作者创作、文本审核,助力爱奇艺内容质量提升。 剧本内容理解 •自然语言处理、知识图谱等AI 手段对场景信息、环境描述、对白描述、动作描述逐层进行拆解和分析。 AI剧本评估提升业务效率 AI解析剧本 大数据+AI剧本评估体系 •大数据分析剧本市场潜力、宏观环境,判断剧本IP商业价值; 大数据+AI评估体系 业务应用 •AI基于剧本内容进行评估:包括剧情节奏、情节识别、人物互动、人物情感等分析,评估剧本质量。 •辅助IP采购决策,降低风险,提高项目ROI; •辅助剧本IP开发; •降低专家人工初筛剧本成本;从大数据角度补充专家评估剧本的维度。 智能制作行业共赢 艺汇选角系统 需求方可方便快捷的在线维护一个高可视化的选角需求库 艺人或经纪人在线维护艺人 爱奇艺制片人/导演 角色信息 角色标签 (特长及过往参演信息等) 艺人要求 需方自定义选角需求 艺汇AI智能匹配 匹配算法计算角色与艺人的标签匹配度给出匹配度建议 供方在线维护艺人信息 联盟公司经纪人 爱奇艺经纪人 联盟公司艺人 爱奇艺自有艺人 角色小传 艺人基础信息 艺人标签 艺人作品 组讯信息 艺人视频 艺人照片 其他信息 其他信息 爱奇艺大数据大规模实践—— 内容运营 流量票房预测系统 提供多内容类型、多时间窗口的流量预测,帮助选角、剧本创作、版权采购、宣发推广、广告售卖等业务把握投资意向,把控投资风险,提升业务效率。 开播前预测 电视剧 开播前流量预测准确率 88% 电影 上映前票房预测准确率 81% 开播后预测 在电视剧剧集上线的初期对剧集 的最终总体流量进行预估,用于指导运营方案和广告库存分配。 奇 内容热度爱 艺风云榜 弹幕 内容热度 观看人数 时长 分享人数 观看行为指标 用户反馈 观看次数 评论 分享次数 播完率 顶踩 互动行为指标分享行为指标 内容质量 当前市场表现 舆情 爱奇艺大数据大规模实践—— 内容分发 个性化推荐也是运营,是机器运营 互相补充 运营专家意见和机器动态规划的结合 量化基金:超短线的灵活操作 抓住每一秒细微的机会赚海量的小钱 巴菲特:最有判断力的股民 从大趋势上放长线赚大钱 用户反馈内容 内容理解 算法+人工 用户看到内容 海报图标签精彩看点 推荐语 推荐中的用户和内容理解 用户内容 用户画像产品 支持300+标签,多维度挖掘 内容展示 海报图、推荐语 精彩看点、推荐语 长短视频标签体系 …… 更好的用户体验、更丰富的内容推荐 个性化创意:海报图、推荐语、精彩看点 内容侧大数据 人脸识别 动作识别 …… 场景识别 LOGO识别质量模型 用户侧大数据 用户特征实时行为特征 离线行为特征…… 多种风格创意素材个性化推荐给不同观众 CP海报 群像海报 文字海报 氛围海报 AI+人工生产,智能分发 爱奇艺大数据大规模实践—— 内容营销 内容营销的智能决策分析平台 内容营销智能决策分析平台,能帮助内容营销同学制定营销策略、监控营销数据、进行效果评估、辅助投放优化。 制定营销策略 •确定营销目标受众 •确定渠道预算分配 •推荐KOL 监控营销数据 •监控渠道触达的用户声量 •监控素材创意的互动趋势 •把握实时舆情风向 营销效果评估 •通过用户触达,意向,播放,订购,推荐全链路指标进行效果评估 •重点关注内容营销T7成本率 系统介绍-针对不同营销阶段的能力建设 营销 开始 营销中 营销结束 根据用户属性、项目属性、历史项目对比进行营销渠道的推荐及人群筛选。有针对性的对于项目进行策略分析 营销策略分析 营销渠道舆情进行筛查整理,标注用户口碑及反馈,切实观测用户反应 营销投放进行汇总、追踪,完成整体投放数据评估; 并对榜单记录实时整理 对于营销期表征效果指数进行持续监测,并通过关键事件的标注产生营销效果曲线 站内效果监测投放效果追踪追踪渠道舆情 对单渠道营销路径进行数据整理,并比照大盘基数进行营销效果判断是否达成预期 营销效果评估 爱奇艺大数据大规模实践—— 内容理解 标签体系 奇文 通过深度学习技术实现对多模态数据(文本、图像、音频、视频)的理解,提供算法能力, 满足下游用户方需求,助力公司的内容生产、分发以及生态建设。 反馈学习 内容理解 机器学习 生产标签 人工审核 业务应用