您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:AI+版权平台专家会议纪要–20230404 - 发现报告
当前位置:首页/会议纪要/报告详情/

AI+版权平台专家会议纪要–20230404

2023-04-07未知机构温***
AI+版权平台专家会议纪要–20230404

【出席领导】国内头部网文平台技术总监 Q:介绍AI技术在网文平台的应用情况? A:第一个阶段:“无组织的自由探索”。从2019年开始,微软小冰、AlphaGo已经声名鹊起,公司和微软互联网工程院开启了一个AI赋能网络文学的计划,叫“IP唤醒计划”。核心是建立网文平台里的强IP角色和用户之间的双向互动,将IP角色作为连接用户情感的纽带。 用户对一个IP的情感有利于用户的粘性,他在平台上的阅读时间、买章节的费用、带来的广告收入都会上升。当时微软主要是推的是Avatar来帮助公司重建小说的虚拟世界观,公司则拿出来4种类型、100多个偏“男频”视角的IP来进行相关设计。后来这些IP角色在公司的苏州业务线上进行了上线,但效果并不好,2021年就把这部分内容给下线了,因为公司当时的形式还是传统的聊天对话,所以它的互动感和情节感并不是很成功。2020年上半年,公司尝试试验写小说的开源项目AI-Writer,进行相关调整训练后完成了小说作品《武道苍宇》,并在官网的男频平台上线了,但是从效果上来看反应并不好。问题包括排版比较乱,语句不充分,阅读体验较差,如果按照公司审核标准,这个作品显然是不能上架的,更何况还进行了收费,于是就迅速地下架了。除了AI-Writer,公司也尝试了当时流行的Fairseq开源算法进行更低成本的实验。 第二个阶段:“有组织的聚焦探索”。组织性体现公司逐渐建立了中台,让技术赋能不同的业务线。公司选取了两个方向,一个是语音小说,另一个就是作家创作作品的工具。 语音小说上,公司在在2021年及以前的动作就是“买“,例如百度、腾讯云、科大讯飞、搜狗,他们的文本转语音TTS技术更成熟,所以公司不同的业务线也是各自为战去尝试他们的产品,音色、语音连贯程度、机械音等等都是公司实验的对象。但是随着番茄,七猫小说的异军突起,他们在语音小说上基于本身的AI能力更容易让读者产生粘性。所以我们想到了调整语音、语调,并通过AI加入特定的背景音乐,使其更适合小说上下文背景,给读者营造沉浸式的视频体验,技术上则是“外采+自研”的模式。去年公司上线了10本以内的此类小说来进行实验,不过实验效果并没有达到预期,用户阅读时长的增加不到10%,背后则是硬件和软件资源的大量投入,所以从ROI的角度,说明它可能并不是一个好的方向。 但是这个方向其实还是值得继续研究的,所以公司也在用少量资源不断丰富模型,这个过程也是主要以开源算法为主,例如MusicLM,它是用层次化的方式建模文本到音频的转化,可以在几分钟之内生成24千赫频率的音乐。在文本背景匹配方面,公司尝试实验过Gensim的NLP语音语义理解,它从我们的音频训练集中合成训练题,再经过Transfer模型,通过输入的人声反馈出乐曲,然而实验效果和预期相比较差。我们尝试用LatentDiffusion模型生成音乐,效果也比较一般,它生成的48千赫立体声音乐,和我们场景结合起来的效果不是很好。还有AudioLDM模型,跟刚才提到的谷歌MusicLM是类似的,我们根据论文来尝试编码并也进行了实验。 作家端应用方面上,公司传统的编辑器BBS提供的是最基本的文本编辑功能,但是对作家端来说,可能无法满足其需求。因此,公司希望做一个AI辅助的编辑效果,帮助作者提高编辑的质量和效率。其中会用到LaMDA、Word2Vec此类语言模型,核心功能除了纠错,还能根据作者当前创作的内容,基于训练集里的内容库为他提供一些可候选的思路想法,帮助作者突破思维瓶颈,提高读写速度。当然如果作者思路和打字本来就很快的话,这些提示就可能有一定干扰,但是从去年至今年,公司实验了几波作者之后,整体反馈是不错的。希望达到的理想效果:作家负责思考,比如说人物、背景、情节,用关键词或短句来描述,而我们的AI编辑器能围绕这些关键词进行大范围的展开,减少作家的手指劳动,提高输出效率,作家只要负责校准就好了,当然目前还没有到这个水平。 Q:GPT4等最新的AI大模型发布之后,公司作为头部网文版权平台如何看待?公司的战略布局层面有什么变化?A:公司在技术上保持密切的关注,也会有“适量“的资源投入,商业公司还是要关注ROI,因此当可行性验证出来之前,并不值得投入太多的资源,所以目前还处于验证阶段。很多人都会觉得ChatGPT能够去替代人,但是它替代的更多是重复性或者说低思考价值的工作和行为。但是创作小说是一个高度思维化的场景和工作,即便说AI能基于一些小说复刻类似的场景和情节,但是创造性无法表现出来,机器更多的是复制和剪辑。当然头部的一些公司可能都有涉足这个板块,但眼下大家其实并没有那么激进。 头部的公司不缺作家和作品的供给,所以数据量方面不会是瓶颈,但虽然说头部的公司都号称有几十万本甚至上百万本小说,但需要分析一下“数据有效性”,也就是说号称这么多本并不代表这么多书已经上架了,其实很多小说都中途停更或者下架了,那么训练机器就不能把这些作品给引进训练集。而且在小说领域也要分门别类的,比如说号称上百万本,但是具体到某一种类别,比如说用文言词写的“古代文学”其实数量级很小,训练的结果就会比较差。即便解决了供给类型的问题,AI可以通过快速复制一些比较热门的作品来完成一些中短篇的爽文或者轻小说,这些作品更多的是机械的写作,缺乏创造性,所以期望它能写出大神级别的作品是比较困难的,而大神级白金级作家带来的读者聚集效应是远大于普通作品的,所以AI商业价值更多的是提供相似的,中等水平甚至以下的文章供给,但是未必能带来更多的营收。 还有一个方向是可以尝试布局的:作家不一定需要完全自己产生思路,还可以利用AI帮助创造思路并实验思路,达到快速试错的目的,如果说思路能走得通,作者再去进一步展开。 总结一下,AI写作能力是值得关注的,但是在中短期内还是需要评估ROI。但是人类发展对效率的追求会越来越高,所以对技术还是要保持灵敏度,一旦错过了时间节点,即便你有数据也是追不回来的。 Q:未来AI多模态生成技术(生成图片、音频、视频等)成熟之后,预计对整个网文平台行业会有哪些进一步的影响?A:技术成熟后会产生变革性影响,因为它加速了文字到图片、视频、音频的生成过程,可以极大地节省时间成本和人力成本,并帮助平台方的版权变现。但是比如说像数据和算法的积累,光靠网文平台公司自己去布局是不够的,所以我们也应该保持关注像海外的谷歌、微软、StablyAI,国内的百度文心、腾讯混元、阿里M6等模型,因为它的撬动点一旦来临,变革性还是蛮大的。Q:国内、海外各头部版权平台(包括阅文等网文版权平台,视觉中国、GettyImages等图片版权平台,etc)对AI大模型的布局介绍? A:AIGC推动内容生产方式的变革,比如说我们探索的全内容生产的“作家端”、通过IP的互动来增加用户粘性、消费和传播等等,这会给全产业链带来变化。 图片公司进行商业化的探索也是应该的,但实际上出现两个相反的模式,一种模式是比较保守的,另一种则是拥抱新技术并积极布局未来。保守的或者说防御性的就比如GettyImages,它不会接受AI生成器而且还把网站上的图像都删除了,还有StableDiffusion,甚至因为图片相似向StablyAI发起过版权诉讼。积极的公司比如说视觉中国,它的图片库中应该有4亿多条数据,随时可以和AIGC技术进行结合,已与百度文心签订战略合作协议,接下来他们会在创作者赋能方面和版权保护方面有一些探索。视觉中国旗下还有一个叫“元视觉”的AIGC网站,与腾讯会议,设置插画和摄影图片当做虚拟背景;数码视讯对AI上也有布局,主要是生产超高清视频;昆仑万维大概在2020、2021年左右开始布局AIGC,组织了近百人的团队开发类似中文版GPT-3模型,其中有一些作品已经开源,包括天工妙笔SkyText和天工巧绘SkyPaint等,一旦看到他们的产出,我们就能复制过来。 所以能够看到国内外不论是视频还是图片方向,大部分都在积极拥抱新的技术。 Q:多模态AI技术对网文平台的商业模式是否会改变?对整个IP产业链的影响?A:产业链可以分为这么三个过程,第一是内容的创作,如网络小说创作,现在也引入了AIGC能力帮助提高创作速度和质量;第二是IP的孵化和生 成,包括更新章节、与读者和其他作者的互动,表现出作品的热度;第三是IP变现,如声明图片、声称视频和生成音频,其中需要耗费时间成本和人工成分。 网络小说的封面形象依靠美工创作,需要对小说有比较充分的了解,因此时间成本和人工成分会比较多。音频目前只有文字转语音这一种方式,正在探索语音语调、内容上下文联系以及添加背景音乐等维度。在视频方面,现在主要有影视剧和动漫动画两种表现形式,但要开发的前提是IP已经火爆了,无论是在文本小说还是语音小说方面。动漫和漫画制作领域AIGC应用一旦成熟,它将能够生成人物形象和IP形象,并且不需要人类的理解过程,速度更快。此外,该技术也能够解决动画图片的连续性问题,自动生成动画。国内对于中文的训练数据集具有优势,但目前能够生成动画和漫画的模型还是比较少的,这需要大量的数据集支持。因此,发展AIGC技术需要注重数据积累和关注头部网文平台。 技术会对产业链带来极大的颠覆,大幅节省人力成本和时间成本,增强对版权的控制力,因为我们不用再和别人联合开发。我们对收入的掌控也会更好。对于头部的网文平台来说,还是可以两条腿走路,一方面要尽可能有内化的能力,这个过程可能要漫长一些,毕竟不是所有公司都具备较大的AI团队,另一方面也可以借助商业合作的方式迎接变革。 Q:AI多模态生成需要数据的积累,那么您认为这个是一个工程还是一个技术问题? A:我认为既是一个工程问题,也是一个技术问题。从AI算法的角度来看,它需要数据作为输入,收集数据是一个工程问题。但是,从制作动画或动漫的角度来看,我们需要从这些数据中提取数千到数十万张图片,并将其与文本内容和情节相对应。这需要技术手段来加快数据信息的提取和标注,但依靠人工标注会非常耗时耗力,因此我们需要技术手段来快速提取数据信息并让人类进行标注。对于AI模型来说,数据量的大小也很重要,因为它需要足够的数据来匹配和识别不同的模式,这是一个关键的技术问题。对于图像生成来说,使用公开的相似图片来生成比较容易,但对于小说中的图像生成,需要更多的技术支持来提取并标注文本内容和情节,这是一个更复杂的技术问题。 Q:AI工具在网文写手当中的受欢迎程度如何?它主要被用在中腰部还是头部的作品?目前来讲,AI工具和网文写手之间是辅助关系还是替代关系?A:我们选取了不同层次的作者进行测试,整体的实验效果相对于传统编辑器更好。因此,除非产品非常糟糕,否则受欢迎程度是不可否认的,但也要不断打磨以提高评分。 辅助关系还是替代关系需要注意作者的分层问题,不同层次的作者收入能力和创作方式不同,对于中腰部和刚入门的作者,他们可能只利用业余时间来创作,而不是使用AI工具,或者使用微信等工具,将语音转换为文本,再粘贴到编辑器中。但对于头部作家,创作方式可能完全不同,他们可能有自己的团队或公司,或者直接雇佣其他作者帮助他们完成作品。总之,现在AI能够替换掉网络小说中的一些重复性动作,如写短篇小说和飞卢体的作品,也包括对情节、名字和性格的替换。这种方法提高了内容供给的效率和数量,但对于内容质量仍然存在局限性。由于模型的风格限制,读者可能会对连续阅读相似风格的作品感到反感。因此,该方法对于一些大公司的版权控制和用户时长的增加可能有一定的帮助,但在商业价值和现金流方面,它仍然依赖于头部大神作品的吸引力。 Q:公司通过AI工具带来的降本增效,是否有量化的指标衡量?您提到如果AI取代中下游网络作家,成本与效率的提升大概是怎样的?A:我们的关注点当然是商业效益,要考虑投入与产出的平衡。例如,我们计划引入语音、语调和背景音乐,核心目的是增加视听感受和沉浸感,从而让用户听得更长时间。虽然整体上用户已经能够听三小时或更久,但我们仍有挖掘潜力。商业模式上如果是付费阅读,那么成本仍可以承受;但如果免费阅读,则需要广告来补