Deepfake和 声音克隆 消费者情感 报告 2023年10月 目录 1.简介//3 2.SCAMS、攻击向量和积极使用//13 3.深度意识和情感//23 4.声音克隆意识和情感//37 5.比较深度和语音克隆//52 6.DEEPFAKE和语音克隆关注域//60 7.其他资源//71 Voicebot制作领先的在线出版物,时事通讯和播客,专注于对话式AI和生成式AI行业。成千上万的行业领导者,工程师,企业家,软件开发人员,投资者,分析师和公司创始人每周都会向Voicebot寻求最新的新闻,数据,分析和见解,以定义下一个伟大的AI计算平台的轨迹。 Pindrop致力于不断创新解决方案,以检测和减轻合成音频带来的风险-增强您与客户之间的信任和诚信。 方法 该调查于2023年7月在线进行,由2,027名18岁或18岁以上的美国成年人完成,这些成年人代表了美国人口普查人口的平均水平。 Synthedia是领先的分析,数据,趋势,新闻和咨询服务提供商 ,专注于快速增长的生成AI和合成媒体市场。通过每日电子邮件时事通讯,每周新闻直播,会议,报告,社区和战略咨询,Synthedia帮助商业领导者应对二十年来最具颠覆性的技术转变。 每一项新技术都有好的和坏的应用。虽然《星球大战》、《美国达人》、在线游戏和无数幽默的YouTube视频的许多粉丝都喜欢语音克隆和深度假货的出现,但这些技术在欺诈、虚假信息和损害个人声誉方面的应用也越来越多。 技术是如此之好,我们被如此多的数字媒体所淹没,以至于人们现在很难区分真假。一项Pindrop研究表明,人们可以以57%的准确率识别深度假。这仅比抛硬币好7 %。 解决方案不是停止技术并抛弃好的东西以消除坏的东西。解决方案是创建可以检测深度伪造和语音克隆的工具,并保护用户免受滥用的风险。 PindropSecurity建立在使用AI技术通过区分现实与虚幻来降低风险的基础上。最初 ,它是人类使用 社会工程和技术的结合,试图访问某人的银行帐户,病史或其他私人信息。今天,它是一样的,但是语音克隆和深度伪造是欺诈技术军备竞赛中的最新工具。 Pindrop正在采取行动并提供检测工具,以保护公司和个人免受伤害。实际上,我们已经在这个问题上工作了十年,并拥有11项Deepfake检测专利,其中许多专利已转化为产品。 我们与Voicebot合作。ai将阐明消费者对deepfae和语音克隆技术的体验和看法。我怀疑你会发现超过一半的美国人对这种深度的认识S.成年人比预期的要高。语音克隆意识甚至更高,为64%。该技术的扩散迅速发展,消费者对此表示关注。值得庆幸的是 ,有些公司希望主动保护他们的客户。 VijayBalasubramaniyan,Pindrop首席执行官兼联合创始人 来自Pindrop的一封信 INTRODUCTION ©VOICEBOT.AI-保留所有权利2023 INTRODUCTION Deepfakes的崛起 Deepfaes是AI技术进步带来的最具争议的解决方案之一。好莱坞使用这项技术来贬低演员,并在死后重现演员的肖像,在社交媒体上的喜剧演员,广告商,游戏玩家以及朋友之间的娱乐和娱乐目的。然而,它也被犯罪分子用作欺诈的工具,被心怀不满的人用来损害某人的声誉,被民族国家和政治行为者用来传播虚假信息。 无论您将deepfake技术视为净正或净负,它的不真实都是我们这个时代的现实。自2019年以来,Voicebot.ai和Synthedia已发表了100多篇有关deepfake技术的文章。大多数是在过去的一年中。该技术正在崛起,质量不断提高,并且变得越来越容易获得。 填补信息差距 大多数新闻报道和分析都集中在技术和事件上,而关于消费者对deepfakes的感知和体验的了解很少。Voicebot与PindropSecurity合作,以填补有关deepfakes整体和语音克隆子类别的信息空白。 这些发现可能会让你大吃一惊。我们没有预料到消费者的日常意识或正面和负面情绪的分裂,特别是考虑到所表达的担忧程度。我们也没想到这么多消费者会相信银行、保险 、医疗保健、新闻和社交媒体组织已经采取了有意义的措施来保护他们。这一发现表明 ,期望和现实之间可能存在不匹配。这种情绪似乎确实是主题。 ©VOICEBOT.AI-保留所有权利2023 PAGE4 Voicebot将deepfake技术分为四个类别:音频,视频,文本和图像。核心技术通常相关但不同。对于本报告,我们关注整个deepfake市场和语音克隆的子类别。各种技术可以单独使用,也可以组合使用,可以是静态的,可以是记录的,也可以是实时交付的 动态 。 Deepfake技术类别 Deepfakes存在多种格式 INTRODUCTION Definitions Deepfakes是以文本,图像,音频或视频格式的AI操纵的数字媒体,它们复制真实的东西或改变真实的东西的关键特征,这可能会改变媒体的解释方式。 语音克隆是AI操纵的音频媒体,它复制了 特定的人。它是一种合成语音,也是deepfakes的子类别。 ©VOICEBOT.AI-保留所有权利2023 单词和声音 音频 视频 •声音•音乐•声音 •People•对象•Places•概念 文本 Image •已打印•书面 •People•对象•Places•概念 来源:Voicebot2023 静态 Visuals PAGE5 INTRODUCTION Deepfake技术存在复杂性 Human 视频 合成复杂性 来源:Voicebot2023 音频 语音克隆D合ee成p语fake解决方案 杂性 音 语音 复杂性映射 调制虚拟邻近效应 润色FA 去老化 e交换增强 合成复 Deepfaes不是由单一的技术、技术或模态来表示的。复制人类相似性和生物特征的各种用例涉及不同级别的技术复杂性。通常,技术复杂性越高,市场上的可用性就越低。然而,也有例外。廉价的(或免费的)和相对高质量的语音克隆可供今天的任何人使用,合成语音也是如此。 要考虑的另一个因素是Deepfae是否应用于记录媒体(静态或动态)或实时通信。后者的复杂性更高,但有时会更有效,因为另一方没有时间考虑和审查情况。他们对交换做出反应,可能不会接受真实和虚假之间的细微差别 。他们甚至可能认为指标是互联网连接或音频通道的反映。 ©VOICEBOT.AI-保留所有权利2023PAGE6 超过一半的美国成年人知道深度假货和语音克隆,后者获得了更多的认可。考虑到其中一个术语是异国情调,而另一个术语结合了容易识别的日常单词,这可能不足为奇。 Deepfake和消费者的语音克隆意识 意识到深度假货和语音克隆的消费者表达了极大的担忧,在这两个类别中 ,约有60%的人表示他们“非常”或“极度”关注,超过90%的人表示担心。 消费者对Deepfake和语音克隆的关注 Yes No 10.7%不确定 34.7% 54.6% Deepfake Yes No 9.4%不确定 27.0% 63.6% 语音克隆 Deepfake 57.9%非常关注 极其 非常 适度轻微 根本没有7.5%不确定 2.3% 12.8% 19.5% 23.3% 34.6% 60.4%非常关注 极其 非常 适度轻微 一点也不确定5.4%不 确定2.0% 13.4% 18.8% 22.8% 37.6% 语音克隆 语音克隆意识比Deepfakes高,关注相似 INTRODUCTION ©VOICEBOT.AI-保留所有权利2023 来源:Voicebot2023来源:Voicebot2023 PAGE7 INTRODUCTION 银行,政府和媒体是最关注的问题 消费者关注的最大领域涉及敏感的个人身份信息(PII)面临风险以及虚假公共信息可能产生负面影响的领域。 消费者最关心的领域 关于语音克隆 67.5% 银行政治/ 值得注意的是,“医疗保健”和“保险”的担忧大大超过了“银行”。当涉及到深度假货的担忧时,欺诈的可能性是首要考虑因素,人们将其与金钱联系在一起。 “政府”和“媒体”位于PII重消费服务的主食之间。两者都可能受到虚假的虚假信息的影响,并可能导致公众采取适得其反的行动。 15.8% 其他令人担忧的领域要低得多,只有“家庭公用事业”突破了20%的水平。“其他”的6.2%表明消费者的想象力在他们可能面临的威胁范围内受到限制。 政府媒体/虚假信息 50.1% 54.5% 54.9% 医疗保健保险家庭公用事业 48.3% 游戏 28.3% 其他体育以上都不是 17.1% ©VOICEBOT.AI-保留所有权利2023 PAGE8 6.2% 4.4% 来源:Voicebot2023 尽管消费者对深度假货和语音克隆表示极大关注,但领先机构的准备情况存在高度不确定性。大约25%的美国消费者表示,他们“中立或不确定”,认为企业已准备好在关键行业中使用该技术。 消费者对Deepfake和语音克隆的信心保护关键风险行业 12.7% 8.3% 10.5% 14.9% 14.1% 23.2% 13.4% 8.2% 12.6% 11.4% 16.6% 26.2% 极高14.9% 消费者最有信心的是,“银行、保险和医疗保健”已经采取措施保护他们免受风险。大约40%的人表示至少“有点高”的信心。鉴于这项技术的新颖性和最近出现的检测解决 非常高有 点高 9.2% 13.9% 29.5% 16.7% 方案,消费者的期望似乎超过了现实。 中性或不确定 有点低 非常低 9.9% 16.3% 极低 6.1% 11.6% 对于“新闻”和“社交媒体”,“低”信心类别要高得多。这一点很重要,因为这些渠道是推动接触次数最多的渠道。 银行、保险和医疗保健新闻媒体 来源:Voicebot2023 社交媒体 许多消费者认为公司已经做好了准备 INTRODUCTION ©VOICEBOT.AI-保留所有权利2023PAGE9 INTRODUCTION 情绪向极端倾斜 Deepfake和语音克隆情感 9.9% 8.8% 18.8% 6.9% 14.9% 11.7% 15.7% 1.0% 1.8% Deepfake 21.6% 语音克隆 22.3% 15.6% 10.8% 11.8% 6.2% 22.3% 非常积极 非常积极稍微积极 中性微负非常负极负 不知道/不适用 大多数消费者情绪是由积极和 deepfake和语音克隆技术的负面影响。事实上,结果看起来很像逆正态分布。 Overall,theunaidedpositivesentialfordeepfakeswas38.5%to48.8%negative.Thefigureswere34.3%positiveto49.1%negativeforvoiceclones.Thisreflectsameasurablenegativesentimentbias. 有趣的是,表达最高关注程度的消费者更有可能对这两种技术表达积极情绪。Deepfaes的阳性率为51.7%,语音克隆在“非常”和“非常”相关人群中显示为45.6%。看来,更多的熟悉可能会导致更积极的兴趣和更多的关注。这些消费者更好地意识到好处和风险。 ©VOICEBOT.AI-保留所有权利2023 PAGE10 来源:Voicebot2023 INTRODUCTION 社交媒体加速Deepfake曝光 消费者最有可能在社交媒体上遇到深度假货和语音克隆。这两个类别的前四名回应是YouTube,TikTok,Instagram和Facebook。您会注意到这些平台上对视频的偏见,因为 按渠道划分的Deepfake消费者遭遇 39.7% YouTube 49.0% YouTube和TikTok的遭遇明显更高。尽管所有这些平台都有视 TikTok