2023年12月25日行业研究梳理全球AIGC数据版权规范,哪些领域具备商业化潜力?——AI产业前瞻系列报告(二) 要点 互联网传媒 用于AI模型训练的数据集有多种方式避免侵权,或直接补偿版权持有人。专有数据:1)版权合作协议:Shutterstock、AxelSpringer等多家版权提供商与AI公司建立合作;2)API付费访问:部分专业性强的数据提供商会对API访问进行收费,23年Reddit、Twitter的API访问由免费转向付费。开源数据:1)开放许可协议:包括CC、ODC、CDLA等;2)特定的数据抓取策略:如遵守网站的Robot.txt文件;3)社区监督:提升数据集透明度。直接补偿创作者:1)事前补偿:技术难度低,但难以界定合理的补偿额度,如Shutterstock建立的贡献者基金;2)事后补偿:对AI生成内容进行溯源,定价合理但技术尚不成熟,如卡耐基梅隆大学发表的归因模型算法。专用数据集:直接出售适用于模型训练的数据集,或打包成MaaS服务。海外版权合作协议盈利模式稳定、商业化前景初步展现。AI生成内容或对版权提供商的传统业务造成一定威胁,版权提供商与AI公司的合作是互利共赢。1)多媒体素材库Shutterstock:通过出售模型训练素材创收,推出AI生成图片专区,提供由OpenAI支持的AI工具;2)出版商AxelSpringer:向OpenAI出售其出版物作为训练素材,共同运用AI技术提升用户体验。从Shutterstock看版权库与AI公司的合作:AIGC的利好整体强于利空。1)利好:Shutterstock的数据授权收入已较明显体现在业绩端,驱动估值修复和股价回升,23Q3出售模型训练素材的收入占公司总收入的19.5%;2)利空:23年以来Shutterstock传统业务低迷更多受同业竞争影响,同类公司GettyImage业绩稳健,AIGC对版权库行业的威胁和替代尚不明显。国内外模型训练数据版权规定尚待完善,版权商股价有望得到密集催化。22M12一篇论文显示StableDiffusion以像素点级别复制名画的细节。对AIGC的版权问题的争议和相关法规主要可以分为两类:1)AI生成内容的版权界定:美国不承认AI生成内容拥有著作权,而中国倾向于保护AI生成内容的著作权;2)模型训练数据的版权规定:美国、欧盟均明确要求使用受版权保护的材料来训练模型,而日本则认定训练数据不受版权保护。投资建议:整体来看,国内外对于模型训练数据的版权保护技术尚待成熟、政策尚待完善,未来版权提供商股价有望得到密集催化。展望数据归因技术的成熟使版权收入和AI生成内容量紧密挂钩,随着AIGC下游应用的商业潜力释放,有望持续带动版权提供商的授权收入增量。AIGC发展对于版权商的利好多于利空,展望预期差驱动股价回升。建议关注海外版权商:Adobe、Shutterstock、GettyImage、Elsevier、ThomsonReuters,以及注重数据版权保护的AI公司:微软、谷歌、Meta。看好国内模型训练数据的版权保护继续完善,带动新闻媒体、影视等各类信息媒介版权提供商的业绩增长。建议关注:1)AI+出版:中国出版、中国科传;2)图片版权库:视觉中国;3)影视版权库:捷成股份、华策影视。风险提示:AI技术研发和产品迭代不及预期;AI行业竞争加剧风险;商业化进展不及预期风险;国内外政策风险。 买入(维持) 作者分析师:付天姿执业证书编号:S0930517040002021-52523692futz@ebscn.com行业与沪深300指数对比图资料来源:Wind相关研报谷歌正式发布Gemini,应用端和硬件端积极布局——AIGC行业跟踪报告(三十八)(2023-12-07)美图发布AI视觉大模型4.0版本,关注应用端落地情况——AIGC行业跟踪报告(三十六)(2023-12-06)探讨AIGC视频的核心痛点与未来趋势,Pika1.0能否带来新变化?——AIGC行业跟踪报告(三十五)(2023-12-05)探讨GPTs背后的产业逻辑:拉开AIGC应用生态的帷幕——AI产业前瞻系列报告(一)(2023-11-20)GPT-4降价辐射AIGC应用产业链,定制化和Agent赋能使用体验——AIGC行业跟踪报告(三十三)(2023-11-08)美股AIGC应用端全产业链布局,商业化箭在弦上——AIGC系列跟踪报告(二十八)(2023-10-14)微软“AI+操作系统”初见雏形,生态壁垒是AIGC核心竞争力——AIGC系列跟踪报告(二十七)(2023-09-27)23Q3美股互联网巨头财报:AIGC应用各自争先,业绩潜力尚待释放——美国互联网科技公司跟踪专题报告(三)(2023-08-05) 目录 1、模型训练数据集如何保证版权合规性?4 1.1、专有数据:主要通过版权合作协议、API付费访问等方式保障版权,商业空间广阔4 1.1.1、版权合作协议:海外Shutterstock、AxelSpringer等多家版权提供商与AI公司建立合作4 1.1.2、API付费访问:23年以来Reddit、Twitter等网站的API访问由免费转向了付费5 1.2、开源数据:依靠开放许可协议、特定的数据抓取策略来保障版权,但仍存在侵权的隐患6 1.3、直接补偿创作者:海外先进技术识别AI生成内容的版权来源,建立基金会为创作者提供补贴7 1.4、专用数据集:直接出售适用于AI和ML的数据集,或作为MaaS服务的一部分提升用户体验7 2、版权合作协议:盈利模式稳定、海外商业化成效初步展现8 2.1、版权提供商与AI公司的合作是互利共赢8 2.1.1、海外多媒体版权库Shutterstock:出售模型训练素材创收,通过基金会为创作者提供补偿8 2.1.2、海外新闻出版商AxelSpringer:为OpenAI提供文本训练数据,通过链接为创作者引流9 2.2、从Shutterstock看多媒体版权库与AI公司的合作:AIGC的利好整体强于利空10 2.2.1、Shutterstock的数据授权收入已较明显体现在业绩端,驱动估值修复和股价回升10 2.2.2、Shutterstock传统业务下滑原因众多,AIGC对于版权提供商的威胁和替代尚不明显11 3、国内外模型训练数据版权规定尚待完善,版权商股价有望得到密集催化11 4、投资建议14 5、风险提示14 图目录 图1:23M7Shutterstock与OpenAI加深合作的声明5 图2:23M12AxelSpringer与OpenAI建立合作的声明5 图3:23M6Reddit开始针对API访问进行收费5 图4:23M3Twitter推出DataAPI的定价方案5 图5:开源数据集Wiki-links的部分授权声明6 图6:Robot.txt文件示例6 图7:卡耐基梅隆大学开发的“评估文本到图像模型的数据归因”算法,可以追溯AI生成图像的训练数据来源7图8:模型训练数据集商店DataStock包含的行业数据8 图9:Azure提供开源数据集,与企业数据共同丰富训练数据8 图10:Shutterstock图片素材主页,包含AI图片生成工具9 图11:Shutterstock拥有丰富的图片版权资源9 图12:2023年1月1日-2023年12月14日纳斯达克综合指数、Shutterstock股价涨跌幅与ShutterstockPE-TTM变化趋势10 图13:22Q1-23Q3Shutterstock传统业务收入,计算机视觉数据收入和占总收入的比例(单位:百万美元)11图14:21Q3-23Q3Shutterstock传统业务(不包含计算机视觉数据收入)、GettyImage收入(单位:百万美 元)11 图15:22M12一篇论文显示,StableDiffusion以像素点级别复制了名画的细节、结构和绘画风格12 表目录 表1:模型训练数据集保证版权合规性的具体方式和后续影响梳理4 表2:国内外关于AI生成内容和模型训练数据的版权规定与相关纠纷判决12 表3:国内外关于人工智能良性健康发展的方向性指导文件13 1、模型训练数据集如何保证版权合规性? 在AI模型的训练过程中,数据收集、清洗和标注是重要的前置环节。随着基于大模型的AIGC应用逐渐推广和商业化,模型训练数据是否侵权需要纳入考虑,用于模型训练的数据可以分为专有数据、开源数据、专用数据集等类型。 针对不同的数据类型有不同的方式来保证数据的版权,或通过直接补偿创作者的方式,在很大程度上降低了训练数据侵权的风险。随着AI模型的不断迭代和性能提升,以及下游应用产业链的繁荣和相关规章制度的成熟,科技公司需要 付出越来越多的成本来保证训练数据的版权与合规性。 表1:模型训练数据集保证版权合规性的具体方式和后续影响梳理 保护版权类型 保护版权方式 具体介绍 后续影响 版权合作协议 AI公司从版权提供商处获取训练数据,通过直接购买或双向合作的方式获得版权 Shutterstock、GettyImage等版权库和AxelSpringer等出版商受益 专有数据 API付费访问 专业性强的数据提供商会针对API访问收费,而23年以来部分免费访问API的网站也开始收费 彭博、Elsevier等专业领域数据和Reddit、Twitter等社交平台受益 开放许可协议 常见开放许可协议包括知识共享(CC)、开放数据共享(ODC)、社区数据许可协议(CDLA)等 较为成熟的标准化授权协议 开源数据 特定的数据抓取策略 AI公司在抓取网页数据时可以避开有版权保护的信息,网页维护者也可以加强对于数据爬取的审核 仍存在侵权隐患,部分公开网页内容本身存在侵权行为 事前补偿 版权人的作品在被采纳为训练数据时获得补偿,如Shutterstock建立的贡献者基金 难以界定合理的补偿额度,仅作为过渡策略 直接补偿创作者 事后补偿 通过技术手段对训练数据溯源并进行对应的版权补偿,如归因模型可以计算数据源对生成内容的影响 针对性地做出补偿,补偿额度更合理,但技术尚不成熟 直接出售 出售能直接运用于AI和机器学习模型训练的数据集 专用数据集的数据量较少 训练专用数据集 MaaS服务商提供特定的模型训练集供客户使用,客户训练自己的模型时,用来丰富训练数据 作为MaaS服务的一部分进行变现,商业化路径更顺畅 绑定MaaS服务 资料来源:各公司官网,光大证券研究所整理 1.1、专有数据:主要通过版权合作协议、API付费访问等方式保障版权,商业空间广阔 AI公司将专有数据用于模型训练,可以直接与版权方交涉,以保证训练数据集的版权合规性。包含特定领域的高质量数据以及未公开授权的私有数据,通常需要付费,但对于进一步提升大模型性能、增强模型的细分垂类能力很十分重要。AI公司获取专有数据的两个主要方式是版权合作协议和API付费访问。 1.1.1、版权合作协议:海外Shutterstock、AxelSpringer等多家版权提供商与AI公司建立合作 版权提供商的高质量语料对于模型性能提升十分重要,并且能降低数据清洗和标注的工作量。新闻版权商拥有丰富全面且更新及时的信息,文学作品、艺术 创作、影视作品中包含大量高质量的训练素材;另外,部分素材库本身就具备针对图片、视频、音乐等素材的标注,能大幅降低数据清洗和标注的工作量。 多媒体版权库Shuttertock与OpenAI、Meta、LG等公司建立合作,将其图片、视频、音频等素材提供给合作伙伴用于模型训练,并从中获得收入;新闻出版社AxelSpringer与OpenAI合作,其新闻素材将用于丰富OpenAI的模型训练数据集;以色列文生图模型公司BriaAI与GettyImages建立长期合作,采用GettyImages、Alamy、Envato等图像版权库的许可内容进行训练。 图1:23M7Shutterstock与OpenAI加深合作的声明 图2:23M12AxelSpringer与OpenAI建立合作的声明 资料来源:Shutterst