AIGC与数据分析融合打造数据消费新模式 杨兵网易数帆有数BI产研负责人 个人简介 杨兵 有数BI产品研发负责人网易高级产品专家 现负责有数BI产品研发部,在网易负责数据研发,数据治理,BI、AI等工具产品体系的演进;曾任职阿里和滴滴出行,10年大数据体系建设经验,擅长数据仓库架构,数据产品的建设 www.top100summit.com 核心摘要 初衷和方向可信的ChatBI网易云音乐实践多场景落地案例 www.top100summit.com 初衷和方向 www.top100summit.com 为什么要做 (某运营商)(网易云音乐) ·取数分析产品,2010年左右开始建设v1->v10 ·专职取数分析团队长期维持在10+ ·年复一年的产品运营推广,技术培训工作 ·创新业务探索:如K歌,心遇,博客,直播,声波等 ·20年推广可视化拖拽+SQL取数产品,覆盖60%一线业务用户 www.top100summit.com 为什么要做 数据分析的供给严重不平衡,且大量长尾的需求还是未被满足,需求被压制 需求侧 ·需求量大且频繁:80%数据分析需求为一次性灵活分析 ·临时紧急且琐碎:响应慢, 平均周期3-5天 ·传统BI工具有一定门槛,有很多用户不会用 供给侧 ·平均每个数据开发同学只能完成15-20个需求 ·离业务较远,大量沟通成本 ·数据的基建被耽搁,且无法满足灵活取数的诉求 www.top100summit.com www.top100summit.com www.top100summit.com ChatGPT让现在的软件都土掉渣了 “我们一家四口人出去旅行,每次我们想要出去时订个酒店时都好麻烦。我在某程上找,我先看有没有家庭房,但家庭房很少,有家庭房那也得查看很多信息,如床的尺寸、是否可以加床,是否可以睡沙发等等。每次订个酒店都要好久。我想很多家庭也有类似的烦恼吧,尤其是有两娃的家庭。” www.top100summit.com ChatUI为AI插上想象的翅膀 ChatGPT的横空出世带来交互模式的变革,是自图形用户界面以来最重要的技术进步。用户控制计算机的主要方式将不再是点击菜单和对话框 ,而是通过简单的母语写一个请求 命令行(CLI) 学习成本:����� 易用性:� 交互效率(简单): 交互效率(复杂): 个性化: 智能性: � ���� ����� � 图形界面(GUI) 学习成本:� 易用性:����� 交互效率(简单): 交互效率(复杂): 个性化: 智能性: ����� ���� � � 聊天界面(ChatUI) 学习成本:�� 易用性:���� 交互效率(简单): 交互效率(复杂): 个性化: 智能性: ��� ����� ���� ����� 专业化便捷化智能化 可信的ChatBI www.top100summit.com www.top100summit.com 对话即有数,降低数据使用门槛,人人用数据 数据库 自助取数分析 数据文件 数据洞察预测 ChatBI API接口 基于AIGC大模型的对话式智能分析工具 填报表单 --- 自然语言或语音对话学习成本趋近于0 www.top100summit.com 网易有数ChatBI产品介绍 1.门槛更低:利用大模型的自然语言理解能力,用户只需要与AI助手进行对话,即可获得数据,提升用户的便利性 2.效率更优:借助大模型的能理解用户需求,从对话转换为数据库查表和可视化图表,用户提升分析效率 3.智能化:从人工设计的规则和模型转化为自动学习的规则,能够处理更复杂和更深度的数据分析任务 ChatBI产品落地难点 “xx洗衣粉在华南区进出货情况? --2023年8月份xx洗衣粉在广东、广西、进货件数100W,订单数1W” 人工智能助手可以立即回答您的数据问题,但您能相信他们吗?以当前的大模型技术,在可预见的未来最多也就只能做到80-90%的正确率,在很多行业场景落地的时候,如果不经过运营正确率还远低于这个数 不能回避AI的幻觉和不稳定 我们的方法是换个评价体系,不再强求正确率,而是追求可信 www.top100summit.com 我们怎么做的-瞄准可信 可信:虽然大模型会出错,但用户能判断结果是否正确,追求产品的可信度100% 需求可理解 理解用户需求理解业务数据 可信的ChatBI 过程可验证 以自然语言生成查询解释, 让普通用户能判断取数逻辑是否正确 用户可干预产品可运营 查询条件结构化表可切换,查询条件可修正 运营知识库,快速干预模型标记查询结果,迭代改进模型 www.top100summit.com www.top100summit.com 如何保障数据可信-需求可理解 1.利用大模型能力,能准确理解用户自然语言提问,同时理解业务数据,确保每一次提问都能得到精准的回答 2.网易自研大模型:准确率媲美GPT4.0,性能比GPT3.5快一倍,同比/环比/分组排序等函数增强 www.top100summit.com 如何保障数据可信-过程可验证 1.让用户容易识别对错 2.将大模型生成的复杂SQL以自然语言描述的方式生成查询解释 www.top100summit.com 如何保障数据可信-用户可干预 1.可以用确定性的手段获得正确结果 2.基于查询解释,可手动调整查询条件(ChatUI+GUI) www.top100summit.com 如何保障数据可信-产品可运营 1.实时生效的知识库、Q&A对、标记正确回答 、运营管理 2.让AI助手越来越聪明 可信的ChatBI:可迭代可进化的 产品可运营需求可理解 实时生效的知识库、标记正确回答、运营管理 自研大模型准确率媲美GPT4.0 用户可干预过程可验证 基于查询解释,可手动调整查询条件 以自然语言的方式生成查询解释 www.top100summit.com www.top100summit.com 数据导出 生成报告 报告美化 移动端 数据洞察 其他Copil ot 预测 找表 数据源 取数 多轮对话 可视化 清单上传 AutoETL 我们怎么做的(2)-聚焦“非技术人员”的“取数”场景的闭环 网易云音乐自助取数落地实践 www.top100summit.com 网易云音乐落地实践 业务日益增长的数据需求与开发团队有限人力之间不可调和的矛盾,使业务取数变得越来越困难 产品运营人员扩大到xxx人+,报表数量达数万+,每周仍有几 百个数据需求,且需要平均3-5个工作日交付,效率差 每周xx+数据需求 xx个开发人力 云音乐数仓团队扩大到xx人,其中x0%+用于解决临时取数需求 ,不到x0%用于数据基础建设 精细化数据运营 *业务发展及业务需求的转变* 用户规模/亿 看数据分析数据算法预测 2013.04 2015.072017.04 2019.08 www.top100summit.com *数仓团队解决方案的演进* 业务报表系统 敏捷BI 数仓 数据中台 网易云音乐落地实践 消费侧 www.top100summit.com 01-数据需求 02-咨询开发 03-查找报表 04-沟通需求 产品定位:帮助业务人员快速取数 05-开发排期 06-模型开发 07-结果交付 供给侧 网易云音乐落地实践 降低用户使用门槛,扩大用户使用规模,提升数据消费的广度、深度和频率让不懂技术的用户,也能对数据唾手可得 运营人员 技术人员 非技术人员 可视化拖拽 (2020年) SQL模式 (2021年) ChatBI (2023年) www.top100summit.com www.top100summit.com 网易云音乐落地实践 www.top100summit.com 网易云音乐落地实践 1.多轮产品培训和知识库迭代 2.长尾需求被满足。覆盖人群:x0%->x0%3.周取数需求:100-->10000+ 4.数据团队不再接临时需求,专注模型和性能, 数据资产体系实现:建设->运营推广->用户使用->产品优化的闭环 更多场景落地案例 www.top100summit.com www.top100summit.com HR落地经验 用户:招聘HR、HRBP、团队管理者 场景:员工福利及活动关怀 场景:人员管理及人才盘点 www.top100summit.com 网易ToB业务经营管理 1.用户:市场/销售/产品/财务/各大区负责人及经营管理 2.日常场景:针对线索商机、销售及产品线的合同收入回款追踪、更快速了解业务状况,辅助业务制定销售策略,并及时调整 3.战略规划场景:多维度、不同视角组合下的数据趋势分析和洞察 www.top100summit.com 财务场景落地实践 1.用户:CFO、决策分析、内审、集团财务、BU财务 2.交叉验证:各部门提交报表需要复核校验,繁琐耗时,财务数据需要通过交叉验证,层层审核; 3.财务的数据报表比较完善,但是维度还是有很多覆盖不到,比如年报、投资人分析、投资路演等特殊需求 www.top100summit.com 一线销售场景落地实践 1.动销实时数据分析,赋能销售及经销商,效率和效能得到全面提升 www.top100summit.com 金融行业找数据场景落地实践 1.领导层:驾驶舱报表和指标太多,只能看分析师整理汇报的PPT或邮件 2.一线业务人员:多年发展积累超过2w张报表,找不到想要的报表,相同报表或者指标太多,不知道相信谁 销售相关报表 www.top100summit.com 采购管理场景落地实践 1.赋能B端客户便捷化的获取和分析数据,由数据驱动运营 2.减少IT投入:由灵活自助的ChatBI分析,取代固定的取数人员 主题 数据内容 目标用户 分析场景 关键问题 品类供应商分析 按照企业的末级品类统计某段时间内供应商的引入、合作及退出的数量。 管理层/执行层 帮助管理层/执行层进行品类规划。 1.各末级品类的合作供应商数量分布如何?哪些品类拥有较多合作供应商,哪些品类较少?2.在2023年11月,每个品类新引入了多少供应商?与上个月相比有何变化? 3.23年第三季度新引入的供应商有哪些?参与寻源次数、中标次数、中标率分别如何? 4.在所有品类供应商中,哪些是优秀合作供应商?他们所占的供应商比例如何? 5.在2023年上半年,各个末级品类淘汰的供应商数量分布如何?是否存在某些品类的淘汰数量异常或明显高于其他品类? 品类采购支出分析报表 按品类分析采购支出金额、节支情况、供应商资源分布等。支持按公司分析。 管理层 帮助管理了解品类采购业务情况,发现异常。 1.2023年1月采购金额最高的品类是什么?采购金额为多少?对应供应商有哪些?2.2023年哪些品类在采购金额方面占据了当月最大比例?这些品类的支出情况与上个月相比如何? 3.哪些供应商占据了每个品类的TOP1?这些供应商的采购占比是多少?4.哪些品类的采购支出集中在特定时期?这种集中现象是否与季节性? 采购运营分析 采购业务相关数据的汇集 决策层 帮助高层了解SRM采购业务执行的整体概况,并可发现异常。 1.在2023年11月,申请预算金额、预算内申请、预算外申请是多少?与上月比如何?2.查询2023年寻源金额分析图; 3.2023年10月平均参标商数、平均报价次数是多少?4.2023年疑似围标项目情况如何? 5.品类申请预算金额分布如何?6.查询采购组织申请预算金额支出分析如何? 供应商分析 供应商相关数据的汇集 决策层 帮助高层了解企业的供应商构成、表现,并发现异常。 1.供应商生命周期阶段分布如何?哪些阶段集中了大部分的供应商?2.过去一段时间内,供应商分布有何变