数据科学在实践中常见的数据谎言 度小满–郭晶 超过80%的牙医推荐高露洁 Morethan80%ofdentistsrecommendColgate -2007UK’sad 数据背后真实的含义是? 非唯一性选择 的确:80%的牙医推荐了Colgate(高露洁) 但同时:100%的牙医也推荐了Crest(佳洁士)、80%推荐了oral-B “披露的数据只是一部分” 药丸恐慌 1995pillscare 1995年10月,英国医学安全委员会(CSM)发出警告,指出第三代口服避孕药使腿部或肺部潜在致命性静脉 血栓栓塞(VTE)的风险增加了近一倍,并建议除非可能,否则改用旧药。声明中写道:“众所周知,避孕药可能很少产生涉及腿部静脉的血栓形成 (血栓)。新的证据表明,与其他药丸相比,某些类 型的药丸在静脉中发生血栓形成的几率增加了约 两倍.” 数据背后真实的含义是? 第二代:15/100000 第三代:25/100000 风险增加:10/15=67% 每10000人服用,增加1例VTE(万分之一) “只看相对变化是片面的,还要关注绝对值变化” 在避孕药警告之前的几年里,英国堕胎率呈逐年下降的明显趋势,这一趋势一直持续到1995年前3个季度。1996年英格兰和威尔士已知的堕胎总数比1995年高出8%,增加了约13000例堕胎! 伦敦凶杀案超过纽约 London'smurderratenowtopsNewYorkCity’s-2018news 数据背后真实的含义是? 1990:184vs2262 “只看绝对值或者相对值是没有意义的” 人还是算法? 现行犯罪误区 法官vs算法决策 -2011年伦敦骚乱 顺手牵羊者 罗宾逊–超市顺走了一箱水吗,最终被判6个月 约翰逊–游戏店顺走了多台游戏机,最终未被判刑 1.相似案件前后决策不一致 2.同一案件不同法官 决策结果不一致 1.算法降低25%犯罪率 2.减少40%拘押率 法官决策-统计定罪 背景: 1960年代,JuanitaBrooks在洛杉矶遭到一名身穿深色衣服的金发白人女性抢劫和殴打。一名目击者证实了一名目击者证实了这一描述,并补充说,这名女子扎着马尾辫,一名留着胡须的黑人男子开着一辆黄色汽车将她接走,然后飞奔而去。 警方随后逮捕了珍妮特和马尔科姆柯林斯,因为他们完全符合这个非常具体的描述。但是,当当局将这对夫妇介绍给警察队列中的受害者和证人时,他们都无法确定嫌疑人是袭击者。 因此,一对夫妇拥有所有这些特征的几率(通过将概率相乘)是12,000,000分之一; 所以这对夫妇不是嫌疑人的概率为十二万分之一 条件概率 事件A在事件B发生的条件下发生的概率。表示为P(A|B) 已知这里的一个生物有4 条腿,那么它是狗的概率; 已知这里有只狗 那么它是四条腿的概率 假设有一个家庭,有两个孩子,现在其中有知道一个男孩,请问另一个也是男孩的概率是多少 1/2? 哥哥弟弟、哥哥妹妹、姐姐弟弟、姐姐妹妹 𝑃(𝐴⋂𝐵) P(A|B)=𝑃(𝐵) 𝑃(𝐴⋂𝐵) P(B|A)=𝑃(𝐴) P(B|A)=P(A|B)𝑃(𝐵) 𝑃(𝐴) 四条腿VS狗 概率是1/3 A先发生,B后发生的概率不等于B先发生,A后发生的概率 条件概率:被测定为阳性者,真实患病概率只有50% 事件A在事件B发生的条件下发生的概率。表示为P(A|B) 假设人群中有1%的人罹患此疾病,而其他人是健康的。我们随机选出任一个体P(健康)=99%;P(患病)=1%假设检验出错的概率是1%,那么 假设检验动作实施在健康的人身上时:P(阳性|健康)=1%,P(阴性|健康)=99% 假设检验动作实施在患病的人身上时:P(阳性|患病)=99%,P(阴性|患病)=1% 所以: 整群人中健康、且测定为阴性者的比率:P(健康⋂阴性)=P(健康)*P(阴性|健康)=99%*99%=98.01% 整群人中得病、且测定为阳性者的比率:P(患病⋂阳性)=P(患病)*P(阳性|患病)=1%*99%=0.99% 整群人中被测定为假阳性者的比率:P(健康⋂阳性)=P(健康)*P(阳性|健康)=99%*1%=0.99% 整群人中被测定为假阴性者的比率:P(患病⋂阴性)=P(患病)*P(阴性|患病)=1%*1%=0.01% 整群人中被测出为阳性者的比率:P(阳性)=P(健康⋂阳性)+P(患病⋂阳性)=0.99%+0.99%=1.98% 某人被测出为阳性时,实际上真的得了病的机率: P(患病|阳性)=P(患病⋂阳性)/P(阳性)=0.99/1.98=50% 法官决策-统计定罪? 背景: 1960年代,JuanitaBrooks在洛杉矶遭到一名身穿深色衣服的金发白人女性抢劫和殴打。一名目击者证实了一名目击者证实了这一描述,并补充说,这名女子扎着马尾辫,一名留着胡须的黑人男子开着一辆黄色汽车将她接走,然后飞奔而去。 警方随后逮捕了珍妮特和马尔科姆柯林斯,因为他们完全符合这个非常具体的描述。但是,当当局将这对夫妇介绍给警察队列中的受害者和证人时,他们都无法确定嫌疑人是袭击者。 给定: 一个无辜的人 那么: 她恰巧具备这些特征的概率是 12万分之一 给定: 该城市中具备这样特征 的人有10个人 那么: 珍妮特和马尔科的无辜概率是 9/10 条件概率-业务场景 ADDSUBTITLE 问卷真的有用吗? 根据公示重新来计算一下 用户真的有betteroffer吗 开始觉着我们对用户不 真实的业务中,当我们 的方式就是通过问卷去 了解的时候,常常采用收集用户的反馈 假设用户在竞品可以拿到更好的offer的占比是40%,且用户倾向于回答他的确有更好offer所以 有更好offer、且没有撒谎:P(真有⋂回答yes)=P(真有)*P(回答yes|真有)=40%*100%=40% 没有更好offer、且没有撒谎:P(真没有⋂回答no)=P(真没有)*P(回答no|真没有)=60%*20%=12% 整群人中被测定为假阳性者的比率:P(真有⋂回答no)=P(真有)*P(回答no|真有)=40%*0%=0 整群人中被测定为假阴性者的比率:P(真没有⋂回答yes)=P(真没有)*P(回答yes|真没有)=60%*80%=48% 整群人中回答yes的比例:P(回答yes)=P(真有⋂回答yes)+P(真没有⋂回答yes)=40%+48%=88% 但问卷收集完成后,回答有betteroffer的用户中实际上真实有betteroffer的机率是:P(真有|回答yes)=P(真有⋂回答yes)/P(回答yes)=0.4/0.88=45% 条件概率-业务场景 真实的业务中,当我们开始觉着我们对用户不了解的时候,常常采用的方式就是通过问卷去收集用户的反馈 根据公示重新来计算一下 问卷真的有用吗? 用户真的有betteroffer吗 可能与期望的并不相同 问卷结果在某些场景可以提供一些定性的信息输入,但是定量角度的业务应用和业务决策是存在很大风险的 辛普森悖论 Simpson'sparadox 即:趋势出现在几组数据中,但当这些组被合并后 趋势消失或反转 “仔细斟酌个别分组的权重” A和B哪个更好 整体上,西部航空延误率是10.89%>西部航空的13.27%,所以西部航空的运营效率更高吗 度小满 辛普森悖论的启示 我被谁平均了? 北京市2023年人均收入XXX 神奇的平均数 拿1%用户跑了一个试验,发现试验版本效果比对照版本好,就说试验版本更好,但实际上 AB实 线后并非如此(或者是实验在一个渠道上,上线在另外一个渠道) 验要小 心 正确的流量分割,保证试验组和对照组里的用户特征是一致的,并且都具有代表性,可以代表总体用户特征 度小满 辛普森悖论的启示 P(点击│恐怖片,内地)=0.6875P(点击│文艺片,香港)=0.5652 模型 模型1对内地出产的恐怖片预测的点击率要高于香港出产的文艺片 P(点击│文艺片,香港,男性)> 训练P(点击│恐怖片,内地,男性) 今年经营效率变好,用户留存/粘性提升3% 避免单一指标判断 指标管理 P(点击│文艺片,香港,女性)>P(点击│恐怖片,内地,女性) 加入新的特征后,完全逆转模型判断结果 用户 去年用户数 去年留存率 今年用户数 今年留存率 新客 300w 40% 100w 40% 老客 600w 60% 480w 60% 总体 900w 53% 580w 57% 幸存者偏差 只用“部分幸存者”的数据去研究整体数据(包含死亡者和幸存者) 春运期间火车候车大厅随机调研有多少人买到火车票 降落伞的电商店铺为什么都是好评? 基金整体涨幅100%? 研究活跃用户的偏好可以帮助我们了解怎么才能更好的把离开我们的用户重新吸引回来吗 网上搜出“民国小学生作文”,文采极好,所以:现在的小学语文教育和民国时没法比 有多大概率亏损的生意能够转亏为盈? 平台经营:特殊时期对用户进行额度/定价等负向操作 用户心声:借钱的时候很烦的、借钱意味着不只是缺钱而且还要付�额外利息,这时候发现(平台)不借给自己或者单方面涨价/降额但自己不得不去借钱,感觉又爱又恨,被人拿捏了” UER们:这是一个好用户,因为XXXX 度小满 “点扎啤是因为打算喝更多” 因果必然相关,相关不一定是因果(相关是因果的充分但不必要条件) 研究人员观察每名同学喝的啤酒量,并记录每种啤酒是按杯、瓶还是按扎购买的。 观察到:盛啤酒的容器和啤酒的消费量之间有很大的相关性 买扎啤的学生喝的啤酒量大约是买杯状和瓶装啤酒的学生的2-4倍 “如果喝扎啤,就会喝的更多”(人们喝的更多是因为他们喝的是扎啤) “为了让学生少喝酒,应该禁售扎啤” 度小满 相关性≠因果性 因果关系是一个事件(因)和第二个事件(果)之间的作用关系,其中后一事件被认为是前一事件的结果 1.运动时间多久,胆固醇含量越高? 辛普森悖论:对于每个年龄组来说,运动似乎都是有益的,但是对总体来看,运动似乎是有害的 2.科技支出越多,自杀越多? 红线是美国从1999-2009年在科技领域的支出,黑线是通过上吊、窒息等方式自杀的人数。我们发现其相关系数r=0.9978 无效数据分析案例 用户的首次分期期内的行为是和其最后的留存率之间的关系 统计 数据解读 度小满 幸存者偏差 第一类:一定时间之内和我产生联系的用户第二类:一定内没有和我建立联系的用户 结论是:第二类用户失去联系的概率是100% 建议 复购类型 用户占比 一年后留存率 ■首笔期数内未复购的用户,一年后的留存率远低于大盘和复购用户■12期用户如果期数内未复购,一年后的留存率会很差,接近0%■未复购用户中,首笔按期还用户的留存最好 首笔期数内复购 75% 70% 首笔期数内未复购 25% 10% 总计 100% 55% 复购 用户行为 3期 6期 12期 小计 未复购_提前结清 15% 10% 13% 13% 未复购_按期结清 15% 14% 9% 11% 用户占比 复购_提前结清 37% 33% 45% 42% 复购_按期结清 31% 40% 28% 30% 总计 100% 100% 100% 100% 未复购_提前结清 21% 18% 0.02% 7% 一年后留存 未复购_按期结清 33% 28% 0.02% 15% 复购_提前结清 57% 62% 63% 60% 率 复购_按期结清 65% 72% 87% 79% 总计 51% 57% 57% 56% 1.首笔快速结清、不再复购的原因可能是:体验不佳 /offer不满/当备胎/没需求,识别早期流失原因 2.识别提前/按期还款用户, 按期还款用户不宜过早干预,更需要关注结清后不复购 3.首选3、6期客户如果到期结清前无复购的流失概率非常高,所以结清前必须要让用户复购一次 因果谬论 如何避免无效数据分析 度小满 ? Challenge意识 如果这么做了,有多大的增益 如何避免无效数据分析 1.具备