您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[DataFunSummit2023:数据科学在线峰会]:数据科学在实践中常见的数据谎言 - 发现报告

数据科学在实践中常见的数据谎言

AI智能总结
查看更多
数据科学在实践中常见的数据谎言

度小满–郭晶 超 过8 0 %的 牙 医 推 荐 高 露 洁 More than 80% of dentists recommend Colgate-2007UK’s ad 数据背后真实的含义是? 非唯一性选择 的确:80%的牙医推荐了Colgate(高露洁) 但同时:100%的牙医也推荐了Crest(佳洁士)、80%推荐了oral-B “披露的数据只是一部分” 药 丸 恐 慌 1995 pill scare 数据背后真实的含义是? 1995年10月,英国医学安全委员会(CSM)发出警告,指出第三代口服避孕药使腿部或肺部潜在致命性静脉血栓栓塞(VTE)的风险增加了近一倍,并建议除非可能,否则改用旧药。声明中写道:“众所周知,避孕药可能很少产生涉及腿部静脉的血栓形成(血栓)。新的证据表明,与其他药丸相比,某些类型的药丸在静脉中发生血栓形成的几率增加了约两倍.” 第三代:25/100000 风险增加:10/15=67% 每10000人服用,增加1例VTE(万分之一) “只看相对变化是片面的,还要关注绝对值变化” 在避孕药警告之前的几年里,英国堕胎率呈逐年下降的明显趋势,这一趋势一直持续到1995年前3个季度。1996年英格兰和威尔士已知的堕胎总数比1995年高出8%,增加了约13000例堕胎! 伦 敦 凶 杀 案 超 过 纽 约 London's murder rate now tops New YorkCity’s-2018 news 数据背后真实的含义是? 1990:184vs2262 “只看绝对值或者相对值是没有意义的” 法 官v s算 法 决 策 人还是算法? -2011年伦敦骚乱 现行犯罪误区 1.相似案件前后决策不一致2.同一案件不同法官决策结果不一致 1.算法降低25%犯罪率 2.减少40%拘押率 顺手牵羊者 罗宾逊–超市顺走了一箱水吗,最终被判6个月约翰逊–游戏店顺走了多台游戏机,最终未被判刑 法 官 决 策-统 计 定 罪 背景: 1960年代,Juanita Brooks在洛杉矶遭到一名身穿深色衣服的金发白人女性抢劫和殴打。一名目击者证实了一名目击者证实了这一描述,并补充说,这名女子扎着马尾辫,一名留着胡须的黑人男子开着一辆黄色汽车将她接走,然后飞奔而去。 警方随后逮捕了珍妮特和马尔科姆柯林斯,因为他们完全符合这个非常具体的描述。但是,当当局将这对夫妇介绍给警察队列中的受害者和证人时,他们都无法确定嫌疑人是袭击者。 因此,一对夫妇拥有所有这些特征的几率(通过将概率相乘)是12,000,000分之一;所以这对夫妇不是嫌疑人的概率为十二万分之一 条件概率 事 件A在 事 件B发 生 的 条 件 下 发 生 的 概 率 。 表 示 为P(A | B) P(A|B)=!(#⋂%)!(%)P(B|A)=!(#⋂%)!(#)P(B|A)=P(A|B)!(%)!(#) 假设有一个家庭,有两个孩子,现在其中有知道一个男孩,请问另一个也是男孩的概率是多少 已知这里的一个生物有4条腿,那么它是狗的概率; 已知这里有只狗那么它是四条腿的概率 哥哥弟弟、哥哥妹妹、姐姐弟弟、姐姐妹妹 A先发生,B后发生的概率不等于B先发生,A后发生的概率 概率是1/3 条件概率:被测定为阳性者,真实患病概率只有50% 事 件A在 事 件B发 生 的 条 件 下 发 生 的 概 率 。 表 示 为P(A | B) 假设人群中有1%的人罹患此疾病,而其他人是健康的。我们随机选出任一个体P(健康)=99%;P(患病)=1%假设检验出错的概率是1%,那么 假设检验动作实施在患病的人身上时:P(阳性|患病)=99%,P(阴性|患病)=1% 所以: 整群人中健康、且测定为阴性者的比率:P(健康⋂阴性)=P(健康)*P(阴性|健康)=99%*99%=98.01%整群人中得病、且测定为阳性者的比率:P(患病⋂阳性)=P(患病)*P(阳性|患病)=1%*99%=0.99%整群人中被测定为假阳性者的比率:P(健康⋂阳性)=P(健康)*P(阳性|健康)=99%*1%=0.99%整群人中被测定为假阴性者的比率:P(患病⋂阴性)=P(患病)*P(阴性|患病)=1%*1%=0.01 % 整群人中被测出为阳性者的比率:P(阳性)=P(健康⋂阳性)+ P(患病⋂阳性)=0.99%+0.99%=1.98% 某人被测出为阳性时,实际上真的得了病的机率: P(患病|阳性)=P(患病⋂阳性)/P(阳性)=0.99/1.98=50% 法 官 决 策-统 计 定 罪 ? 背景: 1960年代,Juanita Brooks在洛杉矶遭到一名身穿深色衣服的金发白人女性抢劫和殴打。一名目击者证实了一名目击者证实了这一描述,并补充说,这名女子扎着马尾辫,一名留着胡须的黑人男子开着一辆黄色汽车将她接走,然后飞奔而去。 给定: 给定: 该城市中具备这样特征的人有10个人 一个无辜的人 警方随后逮捕了珍妮特和马尔科姆柯林斯,因为他们完全符合这个非常具体的描述。但是,当当局将这对夫妇介绍给警察队列中的受害者和证人时,他们都无法确定嫌疑人是袭击者。 那么: 那么: 她恰巧具备这些特征的概率是 珍妮特和马尔科的无辜概率是9/10 12万分之一 条件概率-业务场景 A D DS U B T I T L E 假设用户在竞品可以拿到更好的offer的占比是40%,且用户倾向于回答他的确有更好offer所以 有更好offer、且没有撒谎:P(真有⋂回答yes)=P(真有)*P(回答yes|真有)=40%*100%=40%没有更好offer、且没有撒谎:P(真没有⋂回答no)=P(真没有)*P(回答no|真没有)=60%*20%=12%整群人中被测定为假阳性者的比率:P(真有⋂回答no)=P(真有)*P(回答no|真有)=40%*0%=0整群人中被测定为假阴性者的比率:P(真没有⋂回答yes)=P(真没有)*P(回答yes|真没有)=60%*80%=48 % 整群人中回答yes的比例:P(回答yes)=P(真有⋂回答yes)+ P(真没有⋂回答yes)=40%+48%=88% 但问卷收集完成后,回答有betteroffer的用户中实际上真实有betteroffer的机率是:P(真有|回答yes)=P(真有⋂回答yes)/P(回答yes)=0.4/0.88=45% 条件概率-业务场景 A和B哪 个 更 好 辛 普 森 悖 论Simpson's paradox 即:趋势出现在几组数据中,但当这些组被合并后趋势消失或反转 整体上,西部航空延误率是10.89%>西部航空的13.27%,所以西部航空的运营效率更高吗 “仔细斟酌个别分组的权重” 辛普森悖论的启示 辛普森悖论的启示 幸存者偏差 有多大概率亏损的生意能够转亏为盈? 只用“部分幸存者”的数据去研究整体数据(包含死亡者和幸存者) 春运期间火车候车大厅随机调研有多少人买到火车票 降落伞的电商店铺为什么都是好评? 基金整体涨幅100%? 研究活跃用户的偏好可以帮助我们了解怎么才能更好的把离开我们的用户重新吸引回来吗 网上搜出“民国小学生作文”,文采极好,所以:现在的小学语文教育和民国时没法比 平台经营:特殊时期对用户进行额度/定价等负向操作用户心声:借钱的时候很烦的、借钱意味着不只是缺钱而且还要付出额外利息,这时候发现(平台)不借给自己或者单方面涨价/降额但自己不得不去借钱,感觉又爱又恨,被人拿捏了”UER们:这是一个好用户,因为XXXX “ 点 扎 啤 是 因 为 打 算 喝 更 多 ” 因果必然相关,相关不一定是因果(相关是因果的充分但不必要条件) 研究人员观察每名同学喝的啤酒量,并记录每种啤酒是按杯、瓶还是按扎购买的。 观察到:盛啤酒的容器和啤酒的消费量之间有很大的相关性 买扎啤的学生喝的啤酒量大约是买杯状和瓶装啤酒的学生的2-4倍 “如果喝扎啤,就会喝的更多”(人们喝的更多是因为他们喝的是扎啤) “为了让学生少喝酒,应该禁售扎啤” 相关性≠因果性 因果关系是一个事件(因)和第二个事件(果)之间的作用关系,其中后一事件被认为是前一事件的结果 1.运动时间多久,胆固醇含量越高? 辛普森悖论:对于每个年龄组来说,运动似乎都是有益的,但是对总体来看,运动似乎是有害的 2.科技支出越多,自杀越多? 红线是美国从1999-2009年在科技领域的支出,黑线是通过上吊、窒息等方式自杀的人数。我们发现其相关系数r = 0.9978 度小满 无效数据分析案例 幸存者偏差第一类:一定时间之内和我产生联系的用户 建议第二类:一定内没有和我建立联系的用户结论是:第二类用户失去联系的概率是100% 用户的首次分期期内的行为是和其最后的留存率之间的关系 数据解读 1.首笔快速结清、不再复购的原因可能是:体验不佳/offer不满/当备胎/没需求,识别早期流失原因2.识别提前/按期还款用户,按期还款用户不宜过早干预,更需要关注结清后不复购3.首选3、6期客户如果到期结清前无复购的流失概率非常高,所以结清前必须要让用户复购一次 ■首笔期数内未复购的用户,一年后的留存率远低于大盘和复购用户 ■12期用户如果期数内未复购,一年后的留存率会很差,接近0% ■未复购用户中,首笔按期还用户的留存最好 因果谬论 如何避免无效数据分析 如果这么做了,有多大的增益 如何避免无效数据分析 1.假设基于新的发现去进行对应策略,且已知改策略的真实预测能力为p%,那么能够带来的收益是多少 2.测算后,新发现在原有策略评估后的增益有多多少 1.具备相同特质的人有多少? 2.不进行负向操作能够带来多少收益,又会带来多少风险,收益大于风险的边界概率是多少 Thanks.