行业研究公司研究宏观策略财报招股书会议纪要海南封关低空经济 DeepSeek AIGC 大模型

数据科学在实践中常见的数据谎言

信息技术2023-07-13DataFunSummit2023：数据科学在线峰会J***

AI智能总结

超过80%的牙医推荐高露洁，但这并不代表高露洁是唯一的选择，因为100%的牙医也推荐佳洁士，80%推荐Oral-B，说明数据呈现非唯一性选择。

1995年避孕药恐慌事件中，第三代口服避孕药使腿部或肺部潜在致命性静脉血栓栓塞（VTE）的风险增加了近一倍，但堕胎率在警告后反而上升，说明只看相对变化是片面的，要关注绝对值变化。

伦敦凶杀案数据对比纽约，只看绝对值或相对值没有意义，需结合具体情况分析。

法官决策与算法决策的对比：算法降低25%犯罪率，减少40%拘押率，但存在类似罗宾逊和约翰逊的案例，说明法官决策受多种因素影响，统计定罪需谨慎。

条件概率的应用：例如，被测定为阳性者，真实患病概率只有50%，说明概率计算需考虑前提条件。

辛普森悖论：趋势在分组数据中存在，但合并后可能消失或反转，例如西部航空延误率，需仔细斟酌分组权重。

幸存者偏差：只用“部分幸存者”的数据研究整体数据，可能导致误导，例如降落伞好评、基金涨幅、民国小学生作文等案例。

因果关系与相关性：相关性不一定是因果关系，例如啤酒容器与消费量的相关性，需避免因果谬论。

度小满无效数据分析案例：幸存者偏差导致对未建立联系用户结论片面，需结合用户行为分析流失原因。

如何避免无效数据分析：1. 基于新发现制定策略，并测算真实预测能力和收益增益；2. 分析相同特质人群数量，评估不进行负向操作的收益与风险。

度小满–郭晶超过8 0 %的牙医推荐高露洁 More than 80% of dentists recommend Colgate-2007UK’s ad 数据背后真实的含义是？非唯一性选择的确：80%的牙医推荐了Colgate（高露洁）但同时：100%的牙医也推荐了Crest（佳洁士）、80%推荐了oral-B “披露的数据只是一部分” 药丸恐慌 1995 pill scare 数据背后真实的含义是？ 1995年10月，英国医学安全委员会（CSM）发出警告，指出第三代口服避孕药使腿部或肺部潜在致命性静脉血栓栓塞（VTE）的风险增加了近一倍，并建议除非可能，否则改用旧药。声明中写道：“众所周知，避孕药可能很少产生涉及腿部静脉的血栓形成（血栓）。新的证据表明，与其他药丸相比，某些类型的药丸在静脉中发生血栓形成的几率增加了约两倍.” 第三代：25/100000 风险增加：10/15=67% 每10000人服用，增加1例VTE（万分之一） “只看相对变化是片面的，还要关注绝对值变化” 在避孕药警告之前的几年里，英国堕胎率呈逐年下降的明显趋势，这一趋势一直持续到1995年前3个季度。1996年英格兰和威尔士已知的堕胎总数比1995年高出8%，增加了约13000例堕胎！伦敦凶杀案超过纽约 London's murder rate now tops New YorkCity’s-2018 news 数据背后真实的含义是？ 1990：184vs2262 “只看绝对值或者相对值是没有意义的” 法官v s算法决策人还是算法？ -2011年伦敦骚乱现行犯罪误区 1.相似案件前后决策不一致2.同一案件不同法官决策结果不一致 1.算法降低25%犯罪率 2.减少40%拘押率顺手牵羊者罗宾逊–超市顺走了一箱水吗，最终被判6个月约翰逊–游戏店顺走了多台游戏机，最终未被判刑法官决策-统计定罪背景： 1960年代，Juanita Brooks在洛杉矶遭到一名身穿深色衣服的金发白人女性抢劫和殴打。一名目击者证实了一名目击者证实了这一描述，并补充说，这名女子扎着马尾辫，一名留着胡须的黑人男子开着一辆黄色汽车将她接走，然后飞奔而去。警方随后逮捕了珍妮特和马尔科姆柯林斯，因为他们完全符合这个非常具体的描述。但是，当当局将这对夫妇介绍给警察队列中的受害者和证人时，他们都无法确定嫌疑人是袭击者。因此，一对夫妇拥有所有这些特征的几率（通过将概率相乘）是12,000,000分之一；所以这对夫妇不是嫌疑人的概率为十二万分之一条件概率事件A在事件B发生的条件下发生的概率。表示为P（A | B） P(A|B)=!(#⋂%)!(%)P(B|A)=!(#⋂%)!(#)P(B|A)=P(A|B)!(%)!(#) 假设有一个家庭，有两个孩子，现在其中有知道一个男孩，请问另一个也是男孩的概率是多少已知这里的一个生物有4条腿，那么它是狗的概率；已知这里有只狗那么它是四条腿的概率哥哥弟弟、哥哥妹妹、姐姐弟弟、姐姐妹妹 A先发生，B后发生的概率不等于B先发生，A后发生的概率概率是1/3 条件概率：被测定为阳性者，真实患病概率只有50% 事件A在事件B发生的条件下发生的概率。表示为P（A | B）假设人群中有1%的人罹患此疾病，而其他人是健康的。我们随机选出任一个体P（健康）=99%；P（患病）=1%假设检验出错的概率是1%，那么假设检验动作实施在患病的人身上时：P（阳性｜患病）=99%，P（阴性｜患病）=1% 所以：整群人中健康、且测定为阴性者的比率：P（健康⋂阴性）=P（健康）*P（阴性｜健康）=99%*99%=98.01%整群人中得病、且测定为阳性者的比率：P（患病⋂阳性）=P（患病）*P（阳性｜患病）=1%*99%=0.99%整群人中被测定为假阳性者的比率：P（健康⋂阳性）=P（健康）*P（阳性｜健康）=99%*1%=0.99%整群人中被测定为假阴性者的比率：P（患病⋂阴性）=P（患病）*P（阴性｜患病）=1%*1%=0.01 % 整群人中被测出为阳性者的比率：P（阳性）=P（健康⋂阳性）+ P（患病⋂阳性）=0.99%+0.99%=1.98% 某人被测出为阳性时，实际上真的得了病的机率： P（患病｜阳性）=P（患病⋂阳性）/P（阳性）=0.99/1.98=50% 法官决策-统计定罪？背景： 1960年代，Juanita Brooks在洛杉矶遭到一名身穿深色衣服的金发白人女性抢劫和殴打。一名目击者证实了一名目击者证实了这一描述，并补充说，这名女子扎着马尾辫，一名留着胡须的黑人男子开着一辆黄色汽车将她接走，然后飞奔而去。给定：给定：该城市中具备这样特征的人有10个人一个无辜的人警方随后逮捕了珍妮特和马尔科姆柯林斯，因为他们完全符合这个非常具体的描述。但是，当当局将这对夫妇介绍给警察队列中的受害者和证人时，他们都无法确定嫌疑人是袭击者。那么：那么：她恰巧具备这些特征的概率是珍妮特和马尔科的无辜概率是9/10 12万分之一条件概率-业务场景 A D DS U B T I T L E 假设用户在竞品可以拿到更好的offer的占比是40%，且用户倾向于回答他的确有更好offer所以有更好offer、且没有撒谎：P（真有⋂回答yes）=P（真有）*P（回答yes｜真有）=40%*100%=40%没有更好offer、且没有撒谎：P（真没有⋂回答no）=P（真没有）*P（回答no｜真没有）=60%*20%=12%整群人中被测定为假阳性者的比率：P（真有⋂回答no）=P（真有）*P（回答no｜真有）=40%*0%=0整群人中被测定为假阴性者的比率：P（真没有⋂回答yes）=P（真没有）*P（回答yes｜真没有）=60%*80%=48 % 整群人中回答yes的比例：P（回答yes）=P（真有⋂回答yes）+ P（真没有⋂回答yes）=40%+48%=88% 但问卷收集完成后，回答有betteroffer的用户中实际上真实有betteroffer的机率是：P（真有｜回答yes）=P（真有⋂回答yes）/P（回答yes）=0.4/0.88=45% 条件概率-业务场景 A和B哪个更好辛普森悖论Simpson's paradox 即：趋势出现在几组数据中，但当这些组被合并后趋势消失或反转整体上，西部航空延误率是10.89%>西部航空的13.27%，所以西部航空的运营效率更高吗 “仔细斟酌个别分组的权重” 辛普森悖论的启示辛普森悖论的启示幸存者偏差有多大概率亏损的生意能够转亏为盈？只用“部分幸存者”的数据去研究整体数据（包含死亡者和幸存者）春运期间火车候车大厅随机调研有多少人买到火车票降落伞的电商店铺为什么都是好评？基金整体涨幅100%？研究活跃用户的偏好可以帮助我们了解怎么才能更好的把离开我们的用户重新吸引回来吗网上搜出“民国小学生作文”，文采极好，所以：现在的小学语文教育和民国时没法比平台经营：特殊时期对用户进行额度/定价等负向操作用户心声：借钱的时候很烦的、借钱意味着不只是缺钱而且还要付出额外利息，这时候发现（平台）不借给自己或者单方面涨价/降额但自己不得不去借钱，感觉又爱又恨，被人拿捏了”UER们：这是一个好用户，因为XXXX “ 点扎啤是因为打算喝更多 ” 因果必然相关，相关不一定是因果（相关是因果的充分但不必要条件）研究人员观察每名同学喝的啤酒量，并记录每种啤酒是按杯、瓶还是按扎购买的。观察到：盛啤酒的容器和啤酒的消费量之间有很大的相关性买扎啤的学生喝的啤酒量大约是买杯状和瓶装啤酒的学生的2-4倍 “如果喝扎啤，就会喝的更多”（人们喝的更多是因为他们喝的是扎啤） “为了让学生少喝酒，应该禁售扎啤” 相关性≠因果性因果关系是一个事件（因）和第二个事件（果）之间的作用关系，其中后一事件被认为是前一事件的结果 1.运动时间多久，胆固醇含量越高？辛普森悖论：对于每个年龄组来说，运动似乎都是有益的，但是对总体来看，运动似乎是有害的 2.科技支出越多，自杀越多？红线是美国从1999-2009年在科技领域的支出，黑线是通过上吊、窒息等方式自杀的人数。我们发现其相关系数r = 0.9978 度小满无效数据分析案例幸存者偏差第一类：一定时间之内和我产生联系的用户建议第二类：一定内没有和我建立联系的用户结论是：第二类用户失去联系的概率是100% 用户的首次分期期内的行为是和其最后的留存率之间的关系数据解读 1.首笔快速结清、不再复购的原因可能是：体验不佳/offer不满/当备胎/没需求，识别早期流失原因2.识别提前/按期还款用户，按期还款用户不宜过早干预，更需要关注结清后不复购3.首选3、6期客户如果到期结清前无复购的流失概率非常高，所以结清前必须要让用户复购一次 ■首笔期数内未复购的用户，一年后的留存率远低于大盘和复购用户 ■12期用户如果期数内未复购，一年后的留存率会很差，接近0% ■未复购用户中，首笔按期还用户的留存最好因果谬论如何避免无效数据分析如果这么做了，有多大的增益如何避免无效数据分析 1.假设基于新的发现去进行对应策略，且已知改策略的真实预测能力为p%，那么能够带来的收益是多少 2.测算后，新发现在原有策略评估后的增益有多多少 1.具备相同特质的人有多少？ 2.不进行负向操作能够带来多少收益，又会带来多少风险，收益大于风险的边界概率是多少 Thanks.

点击免费查看完整报告