1.Introduction 在品牌跟踪中提高响应质量: 使用感知交叉熵检测响应异常 道格拉斯河and迪莉娅·贝利 品牌跟踪的目的是衡量消费者对品牌态度的变化,并了解这些变化的原因。数据质量问题是 持续关注跟踪研究。样本组成的变化可能会影响品牌指标的长期比较。调查农场和机器人增加的活动威胁到数据完整性。而下降的受访者参与度可能会给跟踪数据增加大量噪音。 在本白皮书中,我们报告了YouGov去年为提高数据质量而采取的措施 BrandIndex。BrandIndex是一项每日品牌跟踪调查,基于每天在YouGov的面板上进行的超过25,000次访谈。市场研究面板中的数据质量问题已被广泛报道 去年。在过去,YouGov大多不受这些问题的影响。所有BrandIndex数据都是从YouGov小组成员那里收集的。我们不使用路由器。我们不要求小组成员提供筛选信息,并承诺为符合研究资格提供高额奖励。总的来说,我们更依赖长期受访者参与,而不是短期激励。 尽管如此,我们也不能幸免于困扰研究行业的问题。我们密切监控数据完整性,并加强了控制。这意味着由于可疑数据完整性,从我们的小组中删除了比过去更多的小组成员。 我们使用标准注意力检查来检测受访者的注意力不集中。我们描述了这些措施,并讨论了它们对BrandIndex中数据的影响。 我们的主要重点是响应质量,特别是提高品牌知名度衡量的创新-这是品牌漏斗顶部的关键指标。如果品牌知名度被错误衡量,那么漏斗中所有其他较低的指标都会受到损害。这种称为感知交叉熵(ACE)的新方法直接检测响应异常。相比之下,传统的响应质量方法是间接的,并不基于跟踪指标本身的答案。这是一个重要的区别,因为许多受访者发现跟踪指标回答起来很乏味,并且与其他类型的问题相比,他们可能更容易受到较差的响应质量的影响。 Theplanofthepaperisasfollows.Section2providesadefinitionofresponsequality.Section3providesdetaileddataovertimeandacrossgeographiesoftheir frequencyandmagnitude.Section4thendescribetheideasbehindACEandhowitiscomputed.WeprovidedatademonstratingthevalidityoftheACEapproach 用于衡量响应质量及其对BrandIndex中品牌度量的影响。本节总结了ACE和其他数据质量度量对样本量和样本组成的影响的详细数据 。最后一节提供了结论和一些一般性讨论。 2.数据质量的含义 数据质量是一个多方面的概念,对不同的人来说可能意味着完全不同的事情。特别是,我们专注于对品牌跟踪研究很重要的三个关键要素:代表性,完整性,and准确度每个概念都涉及一个基本问题,必须对其进行肯定的回答才能进行有效的研究: •样本代表我们正在研究的人群吗?代表性是调查研究最古老和最基本的问题。做调查的目的是描述目标人群,如果样本没有代表性,其他都不重要。 •Aretherespondentswhotheysaytheyare?Ifrespondentsarenotbeingtrufthfulaboutwhotheyare,aseemingrepresentativesampleisnotwhatitclaimstobe.Thethreattorespondentintegrityhasbecomeanincreasingproblemsfor 随着调查农场和机器人的兴起,该行业的受访者歪曲了他们的居住地,他们的人口统计数据,他们是否使用特定的产品 ,或者是否有资格参加研究,已经成为一个严重的数据质量问题。 •他们的答案准确吗?在这里,我们不是指欺诈,而是指通过以下方式回答问题的关心和参与程度 诚实的受访者。自我报告的受访者特征并不总是可靠的。大多数人不知道他们去年的家庭收入或可投资资产的价值,但他们的答案通常是合适的,因为调查研究不是一门精确的科学。对于品牌跟踪来说,特别有问题的是受访者,他们会偏离直线或停止关注所询问的内容。这就是注意力不集中的问题。 有时很难区分受访者的疏忽和欺诈,因为它们表现在 类似的方式:不可靠和不准确的数据。YouGov在过去一年中显著提升了其受访者的诚信措施。我们在下面描述了这些措施,但我们在这里的重点是消除我们品牌跟踪调查中脱离的受访者。 3.响应质量的测量 YouGov使用各种措施来确保BrandIndex中收集的数据的代表性,完整性和准确性。没有单一的措施可以捕获数据质量的所有方面,也没有任何单一的措施本身就足够了。相反,我们使用以下指标的组合 : •Paradata •响应速度 •注意检查 •一致性检查 •入射检查 •与开放式的接合 2023年,YouGov引入了响应质量调查,以大大增加可用于检测数据质量问题的预测因子的数量。在机器学习分类器中总共使用了600多个预测因子来 创建响应质量评分(RQS)。我们使用RQS来确定哪些小组成员不可靠以及哪些数据应该被丢弃。 本节的剩余部分提供了这些方法的一些解释和有关其性能的数据。 3.1.Paradata Paradata是指与调查过程相关的数据,而不是答案本身的内容( Kreuter(2013)。 在网络调查中,调查过程会生成大量的测量结果,这些测量结果有助于识别注意力不集中(Callegaro2013和OlsonandParkhurst2013) ,尤其是欺诈活动。 使用受访者浏览器中的数据(如Cooie、IP地址和地理位置)和设备 (如操作系统和设备硬件特征)以及网络设置,可以创建数字指纹以唯一识别受访者。这在跟踪尝试创建多个帐户并提交重复响应的受访者时特别有用。使用VPN可以规避其中一些指标,因此除非其他指标非常积极 ,否则我们不会从使用VPN的受访者那里收集数据。来自专门跟踪在线市场研究,广告技术和在线零售行业的欺诈行为的服务的其他数据用于识别不良行为者。 YouGov在注册时检查paradata,不允许任何被认为有欺诈高风险的人参加其小组。在注册后的每个后续调查开始时,也会检查paradata。评估为中等风险的小组成员会被送往响应质量调查,稍后描述。 Table1summarizesparadatacollectedfrompanelistin2023.Wedescribeeachtypeofparadatausedandtheirfrequenciesnext. 仿真器报告与实际使用的软件或硬件特性不同。仿真器有一些合法用途 (例如Procedre,用于跨平台开发,以及使用与当前硬件不兼容的旧软件应用程序,尤其是游戏),但这些用途很少见。模拟器被认为被“调查农场”用来避免机器指纹识别,这将允许同一用户创建多个帐户而无需检测。在香港以外(下面讨论),我们检测到很少的仿真器。可靠地检测仿真器是困难的,并且这些估计可能包含一些误报。 子网用于组织网络内部的路由。它们也可以用来避免检测到重复的IP地址,这就是为什么它们是对调查者产生怀疑的原因。除了印度尼西亚(在印度尼西亚检测到7.9%的注册者使用来自同一网络的不同子网的IP地址),这种情况似乎非常罕见。 已知的欺诈者是与欺诈相关的第三方服务(主要用于广告技术和电子商务)收集的电子邮件和域名列表。这是 美国(5.6%),名单维护得更好。同样,几乎所有地方的频率都很低。 重复设备使用设备指纹检测。这变得不如过去有效。(苹果已限制使用其API用于这些目的。)通过这种方式检测到的虚假账户比例在1%到5%之间,具体取决于国家。 VPN(虚拟专用网络)是当今大多数上班族所熟悉的,但它们也可以用来掩饰用户的位置。Tor是一种防止跟踪和指纹的浏览器。两者都有合法用户,但很少被YouGov小组成员使用。 履带活动是另一个潜在的标志,但不超过任何国家的小组成员的0.1% 。 ThereweresubstantialproblemsdetectedinHongKong,wherenearlyaquarteroftherespondentsappeartobeusingemulatorsandanadditional5%failuredevicefingerprinting.WehavealsodetectedmoreabrasionsinBrandIndextrackingmetricsinHong seriousconcernsaboutsurveyintegrity,resultinginhigherremovalratesfrompanelistsandbackdatathaninothermarkets.Seesection 4.5belowformoredetails. 表1:按国家/地区检测到的Paradata Country 无可疑活动 模拟器活动 子网活动 重复的设备指 互联网欺诈者纹 VPN/代理/Tor 履带活动 埃及 95.5% 2.9% 0.1% 0.2%1.2% <0.1% <0.1% 阿联酋 94.2% 1.6% 0.3% 0.8%2.9% 0.3% <0.1% UK 93.9% 1.1% 1.5% 1.2%2.1% 0.1% <0.1% 沙特阿拉伯 93.8% 1.8% 0.3% <0.1%3.1% 1.0% 0.0% 挪威 92.4% 2.0% 0.5% 2.6%2.4% 0.2% 0.0% 澳大利亚 92.0% 1.7% 0.5% 4.1%1.7% <0.1% <0.1% 印度 91.5% 5.8% 0.9% 0.5%1.1% <0.1% <0.1% US 90.2% 1.8% 0.3% 5.6%1.5% 0.6% <0.1% 丹麦 89.7% 1.9% 2.3% 4.0%2.1% <0.1% <0.1% 爱尔兰 88.5% 4.3% 3.3% 1.1%2.9% <0.1% 0.0% 印度尼西亚 84.8% 0.9% 7.9% 1.7%4.2% 0.4% <0.1% 香港 66.5% 26.6% 0.5% 1.2%5.1% <0.1% <0.1% 3.2.超速 现在,大多数调查组织都使用速度检查来淘汰回答调查太快的小组成员。 这样做的理由是,这些小组成员要么没有参与,要么可能是机器人 。 非常快的速度清楚地表明缺乏参与,但缓慢的反应并不一定表明相反。阅读速度差异很大,因此一个人的阅读速度可能非常快,另一个 人的阅读速度可能会很慢。调查的长度不同,同一调查中的分支意味着同一调查对于不同的调查将具有不同的长度 回答者。因此,需要注意避免因实施速度限制而造成样本偏差。对于BrandIndex,我们根据绝对标准,使用特定调查中问题的实际数量及其复杂性来定义最小可接受时间。这允许对超速人数进行有效的时间比较。 2023年,由于超速,从BrandIndex样本中删除的小组成员数量显着增加。(请参见下面的图1。)在2020年的大部分时间里 ,由于超速而删除了不到2%的BrandIndex样本,但这一比率已上升到今天的6%以上。这是指出在此期间参与问题增加的许多指标之一。没有实质性的 此调查长度的变化,因此上升代表了小组组成或现有小组成员行为或两者的变化。 BrandIndexSpeeders(美国) 图1:BrandIndex中的Speeders 3.3.注意检查 衡量受访者参与度的最直接方法是使用“注意力检查”,指示受访者给出特定的回应 多选题。该指令通常被埋在问题文本的某个地方,以便捕获 没有仔细阅读问题的回答者。图2显示了在一些YouGov调查中使用的检查示例。这个特殊的检查被放置在调查问卷的中间。 你目前刚刚完成这项调查的一半。你能通过从下面的列表中选择答案“超过一半”来确认你理解这一点吗? 没有一点点 大约一半超过一半不知道 不愿说 图