2024年深度行业分析研究报告 目录 01 大模型和AI应用高速发展 02 03 AI推动内容丰富,创作降本增效AI与算法应用推动营销效率提升 大模型的发展开启AIGC时代(第四次AI浪潮),技术是AI每次革命性发展的起点,商业应用与落地则是AI发展的加速器。 大模型的数量及能力均不断上升,AIGC应用爆发具有技术基础;技术爆发后迎来商业加速,应用热度上升。 随着人工智能技术的飞速发展,大模型(包括开源模型及闭源模型)的数量和能力都在显著增长,为AIGC(人工智能生成内容)应用的爆发提供技术基础。当前大模型厂商凭借自身模型基础,扩充应用场景构筑自有生态。海外风险投资公司YCombinator统计,全球AIGC融资热度在2024年加速上升,从侧面显示其商业价值逐步受到关注。 大模型变迁 全球及中国AIGC融资数量 多模态模型能够提供更加全面的认知能力和丰富的交互体验,拓宽AI处理复杂任务的应用范围是其通用人工智能的重要路径之一。例如,OpenAl的Sora模型推出使得全球多模态大模型的发展得到关注。 AI生产力提升将改善传统工作流程。大模型应用或将影响人机交互方式和机器原有的决策能力,以上两方面的提升将对原有内容生产力再次释放,结合对产业上下游链条和生态合作方式,进而改变整体数字管理体系。 AIGC以内容生成为核心,结合商业应用的不断迭代,最终指向数字工作作业模式及治理模式的改变。 单模态模型VS多模态模型 内容生产变迁 内容生成成本下降,生成效果提升; 内容形态的生产时间大幅降低 直接价值 间接价值 基于内容的提高;人与人之间,人与机器之间的交互效率;工作流程改变 生产力显著提升,生产关系逐步发生变化;工作范式或核心需求发生改变 最终价值 多模态发展趋势清晰,文本、图像商业化规模和成熟度较高,AI视频生成正在迅速发展。 各类型商业化进程 概况 关键节点 代表应用 文本 大语言模型在文字处理上面的卓越表现开启了生成式A1的浪潮,基础模型能够基于语言进行推理是智能的重要表现在各个领域应用最为成熟,例如ChatGPT日活用户已经突破1亿,0penAI在2024年6月ARR的达到34亿美元 2018年6月,由AlecRadford主导在0penA1推出GPT-12020年6月,OpenAl推出GPT-3,引发业界关注,验证scaling路线2022年11月,ChatGPT批起技术浪潮 ChatGPTCharacter.AlGeminAnthropic 图像 文生围领域产生仅次于基础模型的杀手级应用,获得大量创作者和用户关注,成熟度仅次于文本模态Midjhouney已有超过2000万用户,在无投资的情况自我造血,在2023年的营收超过2亿美元 2021年1月,0penAl发布初代文生图模型DALL-E2022年8月,StableDiffusion在Stability.ai的支持下开源,推动社区在图像领域快速发展2023年3月,MidjourneyV5发布,成为现象级应用 StableDiffusionHidjourneyDalI-E3 视频 视频是图像模态的进一步扩展,但由于技术复杂,对于算力、数据等资源要求较高,成热相对文本、图像较慢领军企业已经做出标杆,显著加速领域发展,已出现多家视频生成领域创业公司,但商业化、产品化进展较慢 2022-10月,Google、Meta发布Phenaki、Make-A-Video2023年下半年,创业公司推出Runway-Gen2,StableVideoDiffusion、Pika等产品2024年2月,0penAl发布Sora引发全球关注 SoraRunway快手可灵Pixverse 音频 目前主要是音乐生威成(语音识别、克隆暂不纳入讨论),场不如图片生成、视频生成等领域热门,比视频更加早期明星创业公司较少,但有加速的发展的态势 2024年2月,Suno..ai发布SunoV32024年6月,Stability.Al推出文生音频模型StableAudio0pen SunoStableAudio 3D 技术路线目前尚不清晰,垂直明星创业公司较少,产品大多处于早期阶段,但正在加速发展 2020年8月,NeRF论文发表2022年9月,谷歌发布DreamFusion2023年5月,0penAl开源Shape-E模型2024年7月,Meta发布Meta3DGen Luma.AIMeshy 目前AIGC相关应用中普遍围绕文本与图片生成两项功能与产品应用场景进行适配。 针对各类型使用场景可主要归纳为两种形态: 信息生成:围绕工作场景,用户可借助AI生成所需的文本、图片等内容信息,也可生成办公文档、辅助计算,缩短工作时长,提高效率。 内容总结:借助浏览器AIGC插件总结文字、视频等内容,提升阅读效率,聚焦核心信息,并以标签形式提炼,助力工作提效。 2024年1月AIGCAPP活跃用户规模TOP10 生成式AI使用情况 多轮对话类 (ChatGPT必应期头文心声、Kimi.百度搜系互动1ab等) 写作辅助类 (百度文库、讯飞飞输、百度输入法、NotionAl、腾讯文档A) 办公辅助类 (微软365copilot、百度文库、飞书、如流、钉钉AWPSA) (Midjoumey、百度搜索A图片助手、百度文库智能堆友、文心一格eez。鹿班、腾讯云AI绘画等) 45% 音视频生成类(商汤智影、腾讯智影、剪映史、度加剪辑等) 40% 学习辅助类 35% (星火语伴、AI口语陪练等) 图像生产类 60% 55% 50% 在GAN、Transformer和扩散模型等技术和开源的不断升级,AIGC技术在图像领域的定位逐渐由工具向生产力升级,实用性和商业性增强,降低绘制的技术门槛和二次编辑开发成本,应用于艺术创作、美术设计、营销创意、视觉插画、泛娱乐内容等多领域。 AI绘画工具与技术三次跃迁 早期C端应用以及目前端侧结合 初期发展 过渡时期 多模态大模型:AI绘画逐渐成为大模型核心模态之一,如GPT4-V/Dalle-3 当前形态表现 DiscoDiffusion:开启DALL·E:OpenAl出品, 扩散模型元年,开源之闭源模型代表 先驱 Midjourney:提升创新性,提高AIGC图片曝光度 Gan:早期A绘画实现技术 StableDiffusion:AI绘画最为重要的开源力量,创业生态之基石 早期C端应用 端侧AI生成结合(vivo) 2023年AIGC相关图片应用正式开启“全面商用”时刻。从多样性的艺术维度冲击多样性的行业商业,在流量平台等虚拟内容经济的加持下,互联网用户群开始将AI应用融入日常场景。早期AIGC应用以独立软件为主并产生出部分破圈产品吸引流量,随着生成技术的不断提升部分硬件厂商逐步将相关技术嵌入至产品本身。 AI生成作为图片生成工具降低用户绘制或拍摄门槛,有助于图片内容端持续繁荣。据EVERYPIXEL估算,截止到2023年8月份,AI生成的图像超过过去150年人类拍摄的所有照片数量。 从历史发展规律推演,AIGC创作者经济时代也必然会催生对生成式AI版权的需求,因为新经济的形成和运作离不开对新生产要素的确权。例如,当前的互联网数字经济对数字版权的需求催生以视觉中国为代表的数字版权内容平台。 头部内容平台 AI生成图像数量(共154.7亿张) 未来针对AI生成图片及相关版权问题将成为用户及相关平台的关注之一。 16000 14000 12000 10000 8000 6000 4000 2000 0 15000 2400 1360 3.86 150 500 ShutterstockAIInstagramGooglePinterestFacebook 图片数量(单位:亿,截至23.8) AI文本生成和图像生成相继走向成熟,Sora发布加速视频生成相关技术发展,自身展示该领域较为确定性技术范式,将DiffusionTransformer(DiT)推向主流应用,大量视频生成凭借DiT路线并取得成功。单纯基于语言模型的路线是业界关注的另一条路径,可以更好地融合不同的模态,且可扩展性强,未来可能会有新的进展。 AIGC已经加速迈入视频生成阶段。2024年可实现根据文本提示生成初版短视频,2025年有望实现根据文本生成初版长视频,并在视频制作环节真实使用落地。 多步完善过程产生,使其更加符合所需的内容 视频生成正在由检索生成、局部生成走向依靠自然语言提示词的全量生成,生成内容更加灵活丰富,应用空间广阔。 视频生成模型发展 Sora技术推演 2014年GAN 发表,2016年左右开始用于视频生成 2013年VAE出现,可以通过编码器和解码器的机制学习数据的潜在表示 2017年 Transformer发表,逐当向各个领城渗透,早期在视频生成领城也有尝试 2021年Google发布VideoVisionTransformer 2020年DOPV 论文发表 2021年LatentDiffusionModels论文发表2022年VideoDiffusionModel论文发表 2022年12月 DiffusionTransformer论文发表 2024年2月OpenAl发布Sora,取得惊艳的生成效果,验证了Diffusion和Transformer结合的有效性 资料来源:甲子光年智库、量子位智库、数据派THU、华金证券研究所 视频生成模型发展在技术确立下,算力将驱动模型快速进步,稳定性、可控性、丰富度将持续提升,解锁更多应用空间: 训练侧,视频模型发展遵循ScalingLaw,需要在Scalable的模型架构上增加数据和算力来提升模型能力。 推理侧,算力成本的下降和充足的供给来支撑下游的应用和商业化。以0penAlSora的实践成果来看,继续增加模型的数据量和相应的参数规模(Scaleup)依然是AI发展的核心路线,算力支持是模型进步的必要能力。scale提升后可以涌现出更多高级特性。 北美头部数据中心预算情况 计算量对结果影响 随着训练计算资源的增加,样本质量显著提升 500 440 400 380 230 计算量X1 计算量X4 计算量X32 450 400 350 300 250 200 150 100 50 0 MetaAmazonGoogleMicrosoft 北美头部数据中心2024年Capex投入预期(亿/美元) 资料来源:量子位智库、新智元、华金证券研究所 AIGC视频生成工具可对视频生产流程进行重塑,由传统视频制作范式进化到“提示交互式”场景,以用户提示为基础,将生成结果与用户反馈相结合不断迭代,进而生成最终结果。 “提示交互式”相比传统范式具有三方面的重塑:1、压缩制作过程2、提升创意和剪辑自由度3、节省制作成本和时间。 传统制作与AIGC工具在行业发展中相互合作共同磨合。2024年9月18号,Runway和狮门影业开启合作;2024年9月24日,詹姆斯·卡梅隆官宣加入Stability.AI,成为董事会成员。 视频制作方式对比图 目前大模型已从早期的技术驱动转向生态驱动,商业落地大致可分为软、硬件两种形态,相信未来产业会出现大幅升级甚至重构C端软件形态亦可进一步分为”AI+”(原生应用)和“+AI”(原有核心业务增强/赋能)。 近期大模型厂商在智能体领域的战略动向,预示着未来用户可能从过往APP使用模式转向与智能体互动的方式;智能体相比APP自身更轻量化,在场景定制化与对原APP进行智能化升级等方面更具优势。 大模型在软硬件的典型应用和服务形态 当前移动互联网应用生态vsAI模型下的应用生态趋势 B端软件 Mass云端部署 Maas本地调用 API调用 C