生成的批评者AI令人担忧关于错误的知识产权问题 丹尼尔·卡斯特罗|3月20日,2023年 批评者认为生成式人工智能系统的开发人员,例如 ChatGPT和DALL-E不公平地训练了他们的模型受版权保护的作品。这些担心是错误的。 此外,限制人工智能系统进行法律培训访问的数据将大大缩减开发 以及在许多部门采用生成式人工智能。政策制定者应注重加强其他知识产权权利保护创造者。 人工智能(AI)最明显的进步之一是 开发生成式人工智能——可以产生新图像的人工智能系统,音乐或响应用户提示的文本。用户仍在探索 该技术在许多领域的潜在应用,但早期结果是有为。人们已经使用生成式AI工具来起草新闻。 文章,新闻稿和社交媒体帖子,创建高质量的图像,视频,音乐,甚至编写代码。以及更多应用 医学、娱乐和教育等领域即将出现。 然而,一些批评者认为,生成式人工智能对 内容创建者。例如,一些视觉艺术家已经在线推出抗议谴责人工智能并呼吁在线平台阻止人工智能 生成的艺术。1他们的主要抱怨之一是,当开发人员培训时可公开访问的受版权保护内容的生成式人工智能系统,它们是不公平地利用创作者的作品。2但这些批评是错误的。 生成式人工智能系统不应免于遵守 知识产权(IP)法律,但也不应使其更高标准比人类的创造者。3 本报告驳斥了关于如何 生成AI的创造者是不公平的: 1.在受版权保护的内容上训练生成式人工智能系统是盗窃。 2.生成式AI系统不应在没有著作权人的明确的许可。 3.生成式人工智能系统应补偿版权所有者培训内容。 4.不应允许生成式AI系统生成内容未经他们许可基于艺术家的风格。 5.生成式AI系统在他们的输出。 报告还承认,存在合法的知识产权。具体来说,它确定了五种有害活动: 1.AI-generated侵犯版权的作品 2.分布受版权保护的内容 3.创建伪造 4.创建侵权内容 5.冒充个人 最后,该报告讨论了生成式人工智能对那些有害人工智能的影响。活动,并建议政策制定者通过强有力的 执行现有权利,为使用者提供指导和明确性这些工具、打击网络盗版的新立法以及扩大禁止传播未经同意的亲密图像 (有时称为“复仇色情”)包括“深度伪造”(即使用生成AI)创建的图片和视频。 批评者是错的,生成人工智能是不公平的创造者 生成式AI应用程序列表继续增长(请参阅表格1).因为它确实如此,人工智能生成的内容引起了很多赞誉和争议。4许多人欢迎生成式人工智能的出现,认为它是另一个强大的基于软件的文字处理器和视频编辑器等技术将 使创作者能够更好地表达自己。其他人担心人工智能会 通过取代充满活力的人来贬低艺术作品和艺术家本身的价值创造力与感冒,没有情感的算法。5 现实更有可能在中间的某个地方。虽然人工智能生成的内容可能会作为某些内容的有用替代品 用途—简单的营销文案、库存图片和免版税音乐—IT 对美术收藏家、音乐鉴赏家和 文学爱好者。事实上,艺术品价格在历史上一直以不同的方式运作。比其他商品。艺术品的价格与生产成本无关,而是 而是抽象和主观的品质,例如感知的质量 作品、艺术家的声誉以及画廊所有者的意见, 收藏家和其他当局。6同样,一些purists-whether他们作家或音乐家-作为荣誉徽章,可能会拒绝使用 创建内容的技术,而许多其他人将采用该技术 因为这让他们的工作更轻松。事实上,如果人工智能让创作者更多生产,它将经济增长。 类型 例子 表1:流行的生成式AI应用程序列表 图像DALL-E2Midjourney稳定的扩散 文本 ChatGPT,Bing,吟游诗人 代码 副驾驶员 音乐点唱机,MusicLM 但最大的争论是关于生成式人工智能系统是否应该允许在文本、音频、图像和视频上训练他们的模型互联网用户可合法访问,但也受版权保护。 一些创作者认为,开发人员训练他们的人工智能系统是不公平的。关于他们在未经他们同意的情况下在互联网上发布的内容,信用,或补偿。他们的反对通常是没有道理的,但他们的 参数是值得考虑的。 在进入这些论点之前,重要的是要注意人们 无权以他们想要的任何方式使用受版权保护的内容 因为他们可以在互联网上合法访问它。然而,他们不是有权以他们想要的任何方式使用它并不意味着他们不能对此内容执行任何操作。版权法规定版权所有者 某些专有权,但这些权利受例外和 限制,包括合理使用原则下的限制。例如 搜索引擎可以在不侵犯版权的情况下合法抓取网站法律。虽然最终将由法院决定是否 生成式人工智能的特殊使用侵犯版权,这是有先例的让他们发现大多数用途是合法的,而不是违反 著作权所有者的专有权。7 1.针对受版权保护的内容盗窃训练生成式AI系统是否属于培训? 一些人认为,在受版权保护的内容上训练人工智能系统是盗窃。和简单。8事实上,窃取数字内容是一个严重的问题——在线 盗版电影、电视、音乐、游戏等使创作者损失数十亿美元每年收入损失。9但网络盗版显然是盗窃。几乎没有 观看DVD的人之间的区别他们从 沃尔玛或百思买与观看视频的人相比 非法在线流式传输-在这两种情况下,他们都在观看视频没有支付。 但寻求灵感和向他人学习并不是盗窃。这不是盗窃如果有人合法观看视频,并且该视频激发了他们拍摄 他们自己独特的创作。事实上,TikTok和其他社交媒体平台充满了受相关内容启发的此类视频。同样,作家, 音乐家和其他艺术家通过观察过去的创作来学习他们的手艺。在 事实上,所有的创作作品都是由过去的作品塑造的,因为创作者并不存在在真空中。世界的考察、印象和灵感 在他们周围产生了新的想法。称此过程为盗窃是 当应用于人类观察和学习的方式时,显然不准确,以及描述训练生成式AI系统同样不准确 (前面详细讨论)。 2.是否应该允许生成式AI系统对内容进行训练未经版权所有者明确许可? 一些人认为,在受版权保护的内容上训练人工智能系统是错误的。未事先获得版权所有者的肯定同意。这些 批评者说,即使训练人工智能系统不构成盗窃,版权所有者仍应有权决定他人如何使用 他们的作品,因为他们创造了它。事实上,法律确实赋予了某些版权所有者的权利,例如复制作品的权利、权利 制作衍生作品、公开表演作品的权利,以及 公开展示的工作权利。10但是,这个论点分崩离析进一步检查。 如前所述,版权所有者有权决定是否显示或公开表演他们的作品。但是,如果他们选择在 公开,其他人可以在未经其许可的情况下以某些方式使用他们的作品。例如,摄影师可以在 公共场所,即使这些作品受版权保护。版权防止摄影师出售这些图像,但它不需要 他们获得版权所有者的许可拍照。同样个人无需获得版权所有者的许可即可学习 他们在画廊里看到的绘画或他们在收音机里听到的一首歌。人是自由观察这些作品,并利用他们从中学到的东西来创作 未经版权所有者明确许可的未来内容。 没有内在的理由来解释为什么生成式人工智能系统的用户会需要获得许可才能对他们合法的受版权保护的内容进行培训访问。音乐家可能会练习他们听到的受版权保护的歌曲Spotify数百次学习演奏乐器或使用他们的好 磨练的听觉记忆,以回忆他们听过的片段的元素以前。从合法获取的作品中学习不侵犯版权 所有者的独家复制和分发权。除非人类创作者在学习之前需要获得许可 另一个人的工作,这个要求不应该适用于AI。 3.生成式人工智能系统是否应该补偿版权所有者培训内容吗? 一些人认为,人们应该付钱给版权所有者来训练生成人工智能。系统在其内容上,因为他们正在从中获得价值 过程。但版权所有者在以下情况下没有同样的期望 其他人类创作者从他们的作品中学习。崭露头角的音乐家听数小时的音乐,年轻作家仔细研究他们最喜欢的小说,以及业余画家花几个小时在画廊里看作品。他们没有 必须向版权所有者支付单独的费用才能获得研究权他人的技术、风格和艺术性。事实上,当有人购买美术馆门票或购买书籍,没有一个价格 未来的创造者和其他人。 生成式人工智能的批评者也可能高估个人 贡献。生成式AI系统在大量数据语料库上进行训练。 例如,在包含6亿张图像的数据集上训练了稳定扩散。11其中,在1200万样本中,最具“美学吸引力”的 图像“(可能比其他作品更倾向于艺术作品 来自互联网的随机图像),最受欢迎的艺术家(托马斯·Kinkade)出现9268次。12换句话说,最受欢迎的艺术家在数据集中可能仅代表0.0015%的所有图像 数据。或者考虑一下LaMDA,一个由谷歌创建的大型语言模型,训练了从互联网上抓取的1.56万亿个单词。13考虑到 这些模型的大小,任何一个人的贡献都是微不足道的。 4.是否应禁止生成式人工智能系统生产 未经艺术家许可而基于艺术家风格的内容? 生成式AI系统允许用户请求与 特定样式。例如,DALL-E的用户可以生成图像使用诸如“梵高风格的大象”或“泰姬陵”等提示毕加索风格的宫殿。”(见结果数字2)。一些人认为生成式人工智能系统不应该能够产生内容模仿特定艺术家独特的视觉风格,而没有他们的许可。14然而,再一次,这样的要求需要持有 人工智能系统的标准与人类不同。艺术家可以创建一个其他艺术家风格的图像,因为版权不会给出 一个人独占权的风格。15例如,许多艺术家卖个人Pixar-style卡通肖像。16这是完全合法的委托某人以苏斯博士的风格写一首原创诗 或路易斯·阿姆斯特朗风格的原创歌曲。生成式AI的用户系统应该保持同样的自由。 图1:DALL-E为响应提示而生成的图像“梵高风格的大象”和“泰姬陵” 毕加索的风格”,分别 5.生成式AI系统是否在他们的输出? 一些人认为,生成式人工智能系统是“21世纪的拼贴工具”。 [重新混合]数百万艺术家的版权作品,他们的作品是作为训练数据。”17而不是生产独特的输出,这些 批评者声称,生成式人工智能系统只是拼接在一起。他们的算法摄取的受版权保护的内容片段。然而 这一论点反映了对生成式人工智能系统的理解不足。工作。 生成式AI系统不会生成现有内容的混音。他们是不像有些人可能错误地想象的那样,取各种小样本 工作,改变它们,然后以新的顺序重新组合它们。相反生成式AI系统使用大量训练数据来创建 极其复杂的预测模型,使他们能够生成逼真的预测模型响应特定提示的内容。例如,OpenAI的GPT-3大型 在45TB的文本上训练的语言模型,包含1750亿个文本参数。18在2.5亿张图像上训练的DALL-E2图像模型35亿的参数。19 当系统提示“写一个关于月球上鸭子的故事”或“创建一个月球上的鸭子图片,“这些模型没有搜索 现有数据以查找最接近的匹配项,但正在生成新的根据统计模式符合某些参数的内容 在训练数据中观察到。例如,“鸭子”由 某些基本元素,例如短脖子的鸟,粗壮的身体,和蹼脚。这些元素中的每一个都有自己的范围可接受的参数:颜色、比例等。AI模型没有 了解这些参数中的任何一个(事实上,这些参数是可能比这个例子抽象得多),但它使用它们来 生成高质量的输出。 生成AI不会借口其他违法行为 许多关于生成式人工智能的担忧都是错误的,反映了恐惧往往超过对新兴技术的理解。20 事实上,对人工智能的技术恐慌并不新鲜:对人工智能抢走工作的恐惧,破坏隐私,隐藏偏见,征服人类猖獗不 仅在反乌托邦科幻小说中,而且在 出版社,决策者和专业的专家。21而批评者是错的 认为生成式人工智能对版权所有者的合法权利构成威胁,政策制定者需要考虑一些合理的知识产权问题。 本节讨论人们可能侵犯知识产权的一些方式对生成的人工智能和政策的影响。 1.AI-Generated侵犯版权的作品 使用人工智能创建内容的个人应该得到版权保护他们的作品。在美国,美国版权局已经发展 注册使用AI工具创建的作品的初始指南。22的版权局不应向人工智能系统本身提出版权请求或对于没有大量人工投入的作品。23版权 对AI生成内容的保护应具有类似于 其中机器(即相机)完成大部分工作的照片机械工作在产生初始图像,但它是各种 由人类摄影师决定(主题、构图、灯光、后期生产编辑等)这决定了最终结果。同样,个人使用AI工具创建内容