PioneerDATA 北京先锋数聚信息科技有限公司 海量大数据,除了TOP分析 还能干点啥? 先锋大数据2023年9月 先锋数聚 BD前言 为精准定位目标客群,你是否遇到过这些问题 商圈1/3/5/10km客群画像特征对比分析? PioneerDATA 北京先锋数凝信息科技有限公司 思考 中尾部数据除了舍弃还有什么价值? 本品客群与多个竞品客群来源地、渗透率对比分析?海量大数据靠看能看出差异吗? 居住人群与工作人群品牌偏好对比分析? 你真的用好数据了吗? 先锋数聚 BD目录 PioneerDATA 北京先锋数聚信息科技有限公司 去「聚焦」 CONTENTS去「建模』 去「实践」 先锋数聚 BD论题提出 PioneerDATA 北京先锋数聚信息科技有限公司 一般来说,客群的来源地、到访品牌常规分析方式陷入困境 等有成干上万条数据全部罗列分析显然是不现实的通常情况下我们会选取排名TOP进行分析,可仅通过TOP数据真的能解决所有问题吗?得到的结论真的科学合理吗? C 研究客群有点多,研究维度有点杂 排名 品牌 客群1占比 排名 品牌 客群2占比 1 星巴克 4.19% 1 星巴克 4.53% 2 乡村基 3.63% 2 乡村基 3.81% 3 茶百道 2.79% 3 茶百道 2.76% 4奈雪の茶2.46%4奈雪の茶2.48% 研究客群研究维度 ATA客群画像 2.08%商圈1/3/5/10km客群 6两组客群到访TOP品牌基本相同2.00% 7 8两组客群品牌偏好没有差异? 1.72% 1.66% 本品客群VS竞品客群客群来源地 瑞幸咖啡1.23% 10 书亦烧仙草 1.25% 都廖记棒棒鸡非哪幸 1.19%111.22% 书亦烧仙草1.13%12coco都可茶饮1.18% 蜜雪冰城 coco都可茶饮 1.11%1.08% 1314 成都廖记棒棒鸡 蜜雪冰城 1.16%1.14% 快乐番薯 1.02% 15 快乐番薯 1.03% 91.40% 10 11成 12 13 14 15 居住人群VS工作人群客群品牌偏好 先锋数聚 BD问题梳理 1 PioneerDATA 北京先锋数聚信息科技有限公司 3如何利用好全量数据? 2 头部数据难以辨别客群特征 探求中尾部数据的价值 解决提案建立数学模型去充分利用数据 TPDATA 判断是否存在差异找出差异项 PT检验/F检验/非参数K-means聚类/二阶聚类/ 检验..系统聚类.. 先锋数聚 BD目录 PioneerDATA 北京先锋数聚信息科技有限公司 去「聚焦」 CONTENTS去「建模」 去「实践」 先锋数聚 BD配对样本T检验(判断是否存在差异) PioneerDATA 北京先锋数聚信息科技有限公司 配对样本T检验步骤: 1.确定两组样本是否相关 2.对每队相关样本进行差值计算。 适配性: 能适合于成对出现的数据 3.计算差值的均值及标准误差用于检验两配对样本数 4.计算t值即均值差异除以标准误差。据是否存在显著性差异。 5.根据t值和自由度来确定p值。 6.判断p值是否小于显著性水平(常规情况下,p值设定成0.05) ,如果小于,则认为两组样本存在显著差异。 配对样本T检验的前提条件配对样本T检验t值的计算公式为: m 1.配对性假设:被比较的两组样本有配S/NATA 对关系且样本量相等。 其中,i=1,2,3..,n,m= Zr,(d;=m)2 先锋数聚 2.正态性假设:两组样本需要为大样本n-1 ,如为小样本需要服从正态分布。 是配对样本差值的标准差,n为配对样本数,m为两样本差值的均值 自由度计算公式:df=n-1 BD二阶聚类法(找出差异项) PioneerDATA 北京先锋数聚信息科技有限公司 过程:根据样本数据的特征,自动进行分类二阶聚类法的基本思想是 核心:“物以类聚,人以群分”数据集中的样本分成若干个类别,然后再将每 聚类分析介绍个类别内部的样本再次进行聚类,直到满足某 目的:使属于同一类别的数据间的相似性尽 个停止准则为止。该方法可以分为两个阶段 可能大,不同类别中的数据间的相似性尽可第一阶段是对整个数据集进行聚类,第二阶段 能小是对每个类别内部的样本再进行聚类。 主要聚类方法: 聚类对象变量类型分类数样本容量 二阶聚类的适配性 适合大样本,且可以同时对连 K-means聚类个案连续变量固定分类数大样本(>30)续变量和分类变量进行处理: 系统聚类个案或变量连续变量或分类变量固定分类数或指定范围小于200个为宜?操作简单,不需要提前制定聚 类的数目,三阶聚类会自动分 二阶聚类个案或变量连续变量+分类变量系统自动确定大样本(>30)析并输出最优聚类数目。 先锋数聚 8 BD目录 PioneerDATA 北京先锋数聚信息科技有限公司 去「聚焦』 CONTENTS去「建模」 去「实践」 先锋数聚 BD研究数据说明 本次选取某商场到访客群和流失客群品牌到访数据作为研究样本。 PioneerDATA 北京先锋数聚信息科技有限公司 客群到访TOP品牌相似性 客群品牌到访数据过高且主要是大众连锁品 品牌一级分类二级分类三级分类到访客群排名到访客群占比流失客群排名流失客群占比牌,客群特征难以辨别。 星巴克餐饮饮品店咖啡14.19%14.53% 乡村基餐饮小吃快餐中式快餐23.63%23.81% 茶百道餐饮饮品店茶饮果汁32.79%32.76% 奈雪の茶餐饮饮品店茶饮果汁42.46%42.48% 一只酸奶牛餐饮饮品店甜品店52.18%52.08% +++++通过研究要解决的问题: 永辉超市零售超市便利超市16.67%16.41% 屈臣氏零售化妆护理化妆品24.11%24.00% 小米之家 零售 数码家电 综合数码家电 4 2.14% 4 2.15% 周大福 零售 珠宝钟表 珠宝饰品 5 2.01% 5 1.94% ..孩子王 亲子 亲子购物 母婴用品 1 12.97% 13.18% 乐高玩具育想家艺趣中心 亲子 亲子 亲子购物亲子教育 玩具店 亲子教育 23 7.53%4.22% 2 4 7.14%3.83% Dr.Kong江博士 亲子 亲子购物 童鞋 4 103.86% 3 3.86% 七田真国际教育 亲子 亲子教育 综合早教 5 3.50% 5 3.26% .. HUAWEI华为零售数码家电手机32.38%32.19% 到访客群与流失客群在品牌偏好上是否存在明显差异? 存在差异的品牌是哪些,分析到访客群与流失客群品牌偏好差异? 15.03% 1 15.46% 7.18% 2 7.21% 3.31% 3 3.04% 苗品记休闲娱乐玩乐活动茶馆1 幻影星空休闲娱乐玩乐活动VR2 银元大咖 休闲娱乐 玩乐活动 游戏厅 4 2.75% 4 3.02% 魅KTV 休闲娱乐 玩乐活动 KTV 5 2.28% 7 2.12% 世纪星滑冰俱乐部休闲娱乐休闲运动溜冰场3 先锋数聚 10 userid:414195,docid:140181,date:2023-09-13,sgpjbg.com BD判断是否存在差异 PioneerDATA 北京先锋数骚信息科技有限公司 结果输出(全业态): 配对样本统计 平均值N 标准偏差标准误差平均值 从数据结果可看出配对客群表现出极柜 配对1 到访客群占比0.0327%120030.26682%0.00244% 相关系数:关,说明同品牌下到 流失客群占比0.0330%120030.26834%0.00245%大于0.6表示相关性很好访及流失客群具备相 Pionee 大于0.8表示非常相关关关系,可进行配对 配对样本相关性大于0.996表示极相关样本T检验。 N相关性显著性 配对1到访客群占比&流失客群占比120030.9970.000该数值大于0.05表示不相关或相 关性不显著,该数值小于0.05表 配对样本检验示有相关性或相关性显著。 平均值下限上限 平均值标准偏差标准误差差值95%置信区间t自由度Sig.(双尾) 配对1到访客群占比&流失客群占比-0.00034%0.02140%0.00020%0.00073%0.00004%-1.752120020.008 该数值大于0.05表示没有 从数据结果可看出,显著性水平值为0.008,小于0.05,说差异或差异不显著,该数 明到访客群&流失客群在品牌偏好上存在显著差异值小于0.05表示有差异或 差异明显。先锋数聚 BD 判断是否存在差异 结果输出(分业态): 配对样本相关性 相关性 配对1到访客群&流失客群(餐饮) 0.996 配对2到访客群&流失客群(零售) 0.998 配对3到访客群&流失客群(亲子) 0.997 配对4到访客群&流失客群(休闲娱乐) 0.997 配对样本检验 Sig.(双尾) 配对1到访客群&流失客群(餐饮) 0.003 配对2到访客群&流失客群(零售) 0.000 配对3到访客群&流失客群(亲子) 0.034 配对4到访客群&流失客群(休闲娱乐) 0.035 PioneerDATA 北京先择数聚信息科技有限公司 从输出结果可知,该商场的到访客群与流失客 群在各业态的品牌上均存在差异,其中餐饮、零售品牌显著性水平值更低,差异性更显著,本次选取 餐饮、零售品牌做进一步研究,去寻找差异项,了解到访及流失客群在品牌偏好上的具体区别。 从配对样本相关性可看出,各业态品牌间均存在极相关关系可进行配对样本T检验:查看配对样本检验结果,到访与流 失客群在餐饮、零售、亲子及休闲娱乐品牌偏好上均表现出 有显著差异。 先锋数聚 12 BD找出差异项 PioneerDATA 目标:找出两组客群到北京先锋数聚信息科技有限公司 访占比偏高,占比差值 结果输出:绝对值大的品牌。 自动聚类(餐饮) 聚类数目 施瓦兹贝叶斯准则 (BIC) BIC变化量a BIC变化比率b距离测量比率 聚类概要(餐饮) 122636.135到访客群占比流失客群占比占比差值 8915.581-13720.55413.771聚类平均值标准偏差平均值标准偏差平均值标准偏差 35329.88-3585.7010.2613.09210.0056590.0066080.0056050.0069490.0000540.000789 44218.943-1110.9370.0811.57520.0000410.0001760.0000450.000176-0.0000040.000031 5 3539.792 -679.151 0.049 1.226 6 2999.364 -540.428 0.039 2.535 7 2829.805 -169.559 0.012 1.066 82675.281-154.5230.011 1.079 9 2537.43 -137.852 0.01 1.407 10 2460.342 -77.087 0.006 1.063 组合0.0001200.0010360.0001230.001062-0.000003 聚类概要(零售) 0.000098 112392.049-68.2930.0051.287 到访客群占比流失客群占比占比差值 聚类平均值标准偏差平均值标准偏差平均值标准偏差 1 122355.043-37.0060.0031.001 132318.124-36.9190.0031.339 142308.788-9.3370.0011.043 0.0061990.0089750.0062340.008637-0.0000350.000696 2 0.000114 0.000301 0.000119 0.000310 -0.000005 0.000040 3 0.000000 0.000001 0.000002 0.000001 -0.000001 0.000001 152302.843-5.94501.257组合0.0001860.0014060.0001900.0013