中国内容发现与管理行业白皮书 2023年3月 版权所有©2023灼识咨询,本档提供的任何内容均系灼识咨询公司独有的高度机密性资料。 未经灼识咨询公司事先书面许可,任何人不得以任何方式擅自复制、传播、出版、引用、改编本档内容。 总结摘要 •随着数字化程度的快速提高和智能技术的迅速发展,内容发现(AIDC)与内容生成(AIGC)逐渐发展为内容产业的重要方向和应对国家安全、社会治理、经济发展等数字化挑战的重要手段。政策强化对互联网内容监管、AIGC丰富内容生成、应用场景不断拓宽、多/跨模态AI技术加速迭代等,都为内容发现与管理的产业化和成长性提供了强劲的驱动力。预计未来五年内容发现与管理产业规模将超700亿元人民币,年均复合增长率高达40.8%。 •近期OpenAI推出的ChatGPT已初步验证大规模预训练模型对内容处理的有效性,内容智能处理的技术能力出现了质变和突破,解决了过去算法模型使用门槛高、训练成本高、使用场景窄和不能满足内容场景灵活多变、高精度、高质量等需求的痛点。内容发现与管理行业在国内仍处于起步阶段,主要是借助人工智能等技术手段高效率发现、分析、处置内容,包括了舆情监测、内容检索、情报搜寻、内容风控、媒资管理和内容营销等子领域,行业潜力爆发则主要依赖于AI技术的突破和创新。 •从内容发现与管理行业的市场格局来看,国内产业玩家类型多元,专注不同细分赛道,在长期研发和行业经验积累的基础之上占据大量客户资源和数据资源。业内各厂商的服务对象覆盖泛娱乐、金融、消费、政府等多个行业,其中阿里云、百度智能云、人民中科等作为代表,依托AI大模型技术、模型工程化能力以及行业知识,分别在内容识别、内容风控、跨模态模型等方向取得重要进展,提供内容丰富、技术领先的内容发现与管理服务。《白皮书》指出,未来中国内容发现与管理服务商的成功离不开长期的行业积累、AI技术研发、垂直服务能力和优质的客户资源。 •海外大型互联网公司基本都在其云板块中孵化内容发现与管理业务,作为AI技术提升应用体验的重要方向;而海外创业型互联网公司则以AI技术为核心,将内容发现与管理作为大模型应用的探索。海外的Google,HiveAI,AnyClip等均是有代表性的内容发现与管理企业,其技术路线和商业模式对国内企业均具有一定的借鉴意义。 •本白皮书通过梳理梳理内容的发现与管理,深入分析产业现状、应用场景、客群需求、市场规模、增长趋势以及竞争格局,为国内相关企业把握市场机遇提供重要参考。白皮书第一章分析了AI技术对内容发现与管理行业的变革、产业链、主要客群特征、需求偏好、行业痛点和关键解决方案,重点分析了内容发现与管理行业的市场规模与发展趋势。第二章明确了中国内容发现与管理产业及细分领域的竞争格局,并重点分析了市场竞争现状和关键成功因素。第三章主要介绍了海外内容发现与管理行业的发展历程和竞争格局,并深度分析了三家具有代表性的海外内容发现与管理企业,总结其技术优势与盈利模式,为国内相关企业提供参考。 名词附录 AIArtificialIntelligence人工智能,它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学 AIGC/AIDCAIGenerated/DiscoveredContent人工智能生产内容是继PGC、UGC之后的新型内容创作方式,智能发现内容是人工、数据库、搜索引擎等传统发展基础上的新一代发现方式 APIApplicationProgrammingInterface应用程序接口,主要目的是提供应用程序与开发人员以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节 CVComputervision指让计算机和系统能够从图像、视频和其他视觉输入中获取有意义的信息,并根据该信息采取行动或提供建议。 FTPFileTransferProtocol文件传输协议,是用于在网络上进行文件传输的一套标准协议,允许用户以文件操作的方式(如文件的增、删、改、查、传送等)与另一主机相互通信 NLPNaturalLanguageProcessing自然语言处理,是研究人与计算机交互的语言问题的一门学科,按照技术实现难度的不同可分成简单匹配式、模糊匹配式和段落理解式三种类型 OCROpticalCharacterRecognition光学字符识别,指电子设备通过检测暗、亮的模式确定纸上打印的字符的形状,然后用字符识别方法将形状翻译 成计算机文字的过程 OGCOccupationallyGeneratedContent职业生产内容,通过具有一定知识和专业背景的行业人士生产内容,并领取相应报酬 PGCProfessionalGeneratedContent专业生产内容,用来泛指内容个性化、视角多元化、传播民主化、社会关系虚拟化 UGCUserGeneratedContent用户原创内容,最早起源于互联网领域,即用户将自己原创的内容通过互联网平台进行展示或者提供给其他用户 Web3.0Web3.0是基于区块链技术建立起来的互联网生态系统,具备区块链去中心化、分布式、共享共建的特点 1 AI大模型带来内容发现与管理产业的巨大变革 2 中国内容发现与管理产业的玩家格局分析 3 内容发现与管理海外知名企业的对比分析 内容的数字处理技术,从数据库、信息检索发展到人工智能后,算法迅速跳入大模型时代;大型预训练模型的成熟,使内容表示和调用的方式直接跨越为高度自然的阶段,大大提高了机器发现和生成内容的能力 AI改变数字内容的生产模式 生•在学习归纳数据分布的基础上,学习产数据产生的模式,并创造数据中不存与在的新样本 创•在分析式AI技术基础上诞生大型 造Transformer网络,Diffusion等新模型 跨模态大模型无需大规模标注、无需结构化数据,提高了AI处理内容的能力 跨模态技术是精准模拟现实世界以及人类感官综合体系的核心,大型预训练模型的发展使得跨模态逐步成熟,AI在文字、视频、图片等模态之间的识别与转换生成能力正快速提高 AI高效的发现并管理数字内容 发•利用机器学习技术学习数据分布,现进行如分类,预测等任务 与•发展过程中诞生了卷积神经网络, 分残差深度网络,Transformer网析络结构等 •开始模仿人脑进行大量数据的标记和训练 RNN •对人脑学习过程进行 重点关注 Transformer •基于模板和规则的 学习阶段 基于规则的少量数据处理 •根据一定范围的数据进行参数分类 MachineLearning CNNGAN 神经网络 1990-2006 2017 算法 数据算力 预训练模型构建AI系统的新范式 ChatGPT已初步验证预训练模型的效果,引发了AIGC。AIDC能力的质变,解决了过去算法模型使用门槛高、场景下训练成本高、质量偏低,不能满足真实内容场景中的灵活多变、高精度、高质量等痛点 ChatGPT InstructGPT GPT-3 ALBERT BigBird XLM M2m-100 GPT-2 RoBERTa BART GPT-1 BERT T5 1950 1980 算法、算力和数据的进步是指导现代机器学习的(ML)进步的三个基本进步因素 资料来源:灼识咨询 数字内容指的是数字化的文字、图片、视频、音频以及用户的行为、关系等数字信息;数字内容发现与管理行业是一种借助人工智能等科技手段高效率发现、分析、处置各种数字内容的行业 数字内容的定义与分类 •内容的一般定义是事物内部所含的实质或意义。内容在不同行业中一方面能够带来高价值的正向作用,另一方面也有可能带来风险或潜在损失 •在本文中,内容主要指的是数字内容,也即数字化的文字、图片、视频和音频等数字信息。鉴于账号、关注、点赞、转发、评论、情绪等行为或关系也体现为包含价值信息或语义的数字信息,因此这些数字行为和数字关系也属于本文所讨论的内容 内容发现与管理的定义 •随着中国数字化程度的快速提高,网络上的内容之复杂程度也随之提升,因此内容发现与管理行业随之而生 内容发现与管理 •内容发现与管理行业是一种借助人工智能等科技手段高效率发现、分析、处置内容的行业。其主要是在内容的生产、传播、溯源等各环节,通过对海量内容进行智能识别和智能分析、处置,满足内容产业、国家安全、社会治理等多场景中对海量数字内容进行高效分析的需求 1文字:公告新闻、2 UGC、评论、网络小说等 图片:广告图片、新闻图片、UGC发布图片等 内容理解技术 点 情 5用户行为信息,如赞、关注、转发、 绪等 数字内容的分类 4 音频:语音聊天、音 3视频:UGC短视频、网站长视频、电影、 剧集等 多/跨模 态技术 应用 计算机 视觉 内容发现 自然语 言处理 用于提高互联网信息获取的有效性和效率 √ •分享知识 •促进交流 •广告宣传 •娱乐传播 乐、录音文件等 × •金融诈骗 •盗版侵权 •不良内容 •散播谣言 舆情监测内容检索情报搜寻 应用内容管理 内容风控媒资管理内容营销 用于提高数字内容管理的效率,优化网络环境 资料来源:灼识咨询 随着数字化的不断深入,数字内容爆发式生产且呈现多源异构数据激增的特点,内容发现与管理成为保障互 联网健康发展的关键,也是元宇宙持续发展的基石,具备国家级的战略性意义 1 提高数字化世界透明度 营造安全健康的互联网环境 元宇宙持续发展的基石 2 3 随着互联网的开放程度逐渐提升,互联网内容也在呈现爆发式生产的状态,信息传播速度及传播范围进一步扩大,非结构化互联网内容比重逐渐提高;另外,互联网内容在数字空间与物理空间、社会空间已经深度映射和融合,在数字世界进行的内容发现和管理,已成为发现和管理物理空间的重要补充,因此强化内容发现和内容管理能力,是适应Web3.0时代下数据透明化的必备条件 内容发现与管理是符合国家网络安全战略发展的产业,是能够维护互联网安全健康发展的关键 2003年 3月,文化部审议通过《互联网文化管理暂行规定》 2017年 6月,国际互联网信息办公室发布《互联网新闻信息服务管理规定》 9月,国际互联网信息办公室发布《互联网用户公众账号信息服务管理规定》 信息传播速度 VR/AR时代 音视频时代 图文时代 2019年 “元宇宙”作为一个于现实世界平行运行的空间,其天然具备沉浸感、低延时、多元化、随时随地、身份属性明确的的多模态内容属性,为维护“元宇宙”长久有序的发展,内容发现与管理是必不可少的规范之一 身份 朋友 文明 1月,中国网络视听节目服务协会发布《网络短视频元 平台管理规范》及《网络短视频内容审核标准细则》宇 12月,国家互联网信息办公室室发布《网络信息内宙 容生态治理规定》 2021年 12月,国家互联网信息办公室、工信部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》 沉浸感 经济系统 随地多元化 低延迟 信息多样化 资料来源:灼识咨询 内容理解技术集合自然语言处理、计算机视觉、多模态技术等相关优势,作为内容检索、舆情监测、情报搜寻、内容风控、媒资管理、内容营销的核心技术,是构建内容发现与管理的关键要素 内容理解技术的定义内容理解技术的应用 Web3.0时代数字内容体量呈现爆炸性增长,人工内容发现成本大幅攀升,且精度难以把握,AI凭借其自然语言处理、计算机视觉、多模态技术等相关内容理解技术优势,有效赋能内容发现与管理 •内容理解技术指通过算法对不同形态的数据进行基础性理解,准确地描述出文本、图像、语音和视频中所包含的有效物体、对象之间的交互关系以及潜在的语义情感信息,最终形成准确、拟人化(贴近于人的表达习惯)的自然语言表达 •内容理解技术可分为两大维度:一是通过内容本身来理解内容,主要针对内容抽取静态属性标签;二是通过行为反馈来理解内容,通过行为积累的后验数据、统计、或模型预估内容的知识、倾向性、投放目标以及抽象表达 •自然语言处理使计算机能够解读、处理和理解人类语言 •自然语言处理通过组织各种通信渠道的大