您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[腾讯]:从GPT到Sora——AIGC与传媒变革 - 发现报告
当前位置:首页/其他报告/报告详情/

从GPT到Sora——AIGC与传媒变革

2024-03-25腾讯艳***
从GPT到Sora——AIGC与传媒变革

从GPT到Sora:AIGC与传媒变革 王鹏腾讯研究院资深专家 ⽬录 01Sora的能与不能 02⾏业的危与机 03变与不变 世界 模型 灵感 创作 ⼯作 辅助 知识 学习 01 Sora的能与不能 知识学习:token与patches,统⼀的信息压缩思想 token:⽂本中的最⼩有意义的单位,⽤向量存储。 patch:Sora使用视觉补丁( patches)作为其表示方式。 Transformer:是⼀种深度学习模型,⽤于处理序列数据。⽤⼀套逻辑从⽂字、图像,到视频、声⾳和3D,实现了对世界运⾏规律的学习。 ChatGPT:⼀个基于Transfomer架构的⼤型语⾔模型,⽤于⽣成连贯的⽂本回复。它通过学习⼤量⽂本数据,考虑语⾔结构和语义,并在回复时综合上下⽂信息。 Sora:通过时空patch实现了图像和视频数据压缩,并基于Transformer进⾏多模态计算。 知识学习:通识知识训练与⾏业知识获取 与⼈类学习的⽅式类似,⼤模型也需要从基础教育、通识教育到专业学习。通过对海量知识的压缩与训练,获得常识性知识; ⾏业知识往往掌握在⾏业机构和企业⼿中,需要⼴泛合作,获取更专业的特定能⼒。 ⼯作辅助:翻译、编程、采编、摘要…… 腾讯会议⾃动纪要微信读书⾃动翻译 灵感创作:智能的规模涌现 1、⽂字:从猜字填空到创意写作 新闻智能标题 通过⾃然语⾔处理⽅式,按照新闻语⾔风格,智能化地概括⽂本内容,可以⽤于智能标题的拟定。 •智能标题:仁怀:坚守⽣态底线提升民⽣福祉 •原始标题:⾛进县城看发展贵州仁怀:坚持绿⾊发展提升民⽣福祉 好⽔、好⼟产好粮。为了保护好⾚⽔河的⽣态,仁怀近年来下⼤⼒⽓实现了 ⼯业核⼼区废⽔收集处理全覆盖,城镇⽣活污⽔处理率达95%,⾚⽔和⽔质如今常年稳定在地表⼆类以上。 守牢⽣态底线,在⾼质量发展中保障和发展民⽣。党的18⼤以来,在⽯漠化严重的⼭区,仁怀持续加⼤基础设施建设投⼊和退耕还林⼒度,帮助当地群众打造农旅⼀体的⽣态观光业,以创建省级⽣态乡镇13个,市级⽣态村寨127个。仁怀还下决⼼对城区最⼤的垃圾填埋场进⾏彻底改造和⽣态修复,为群众打造出⼀个鸟语花⾹的⽣态公园。近五年,仁怀绿化造林30余万亩,森林覆盖率达56.35%,城镇新增就业36524⼈,乡村两级医疗卫⽣机构规范化建设全覆盖,公通车总⾥程达3961公⾥…… ⽂本补全:短语补全、⽹络例句、风格化⽂本AI续写 (科幻、军事、武侠、职场):协助创作风格鲜明、妙趣横⽣的新内容。 灵感创作:智能的规模涌现 2、图像:扩散模型,设计应⽤ 2022年8月,游戏设计师杰森·艾伦使用Midjourney模型生成的《太空歌剧院》,获得艺术博览会冠军 Diffusion扩散模型:就像⼀滴墨⽔落⼊⼀杯⽔中。墨⽔会在⽔中扩散。⼏分钟后,它会在⽔中随机分布。正向扩散过程会逐步向图像添加噪声,最终让图像丧失原有的特征,⽆法分辨其原始类别,就像墨⽔在⽔中扩散⼀样。从⼀个嘈杂⽆意义的图像开始,通过输⼊⽂本条件,逆向扩散可以恢复⼀张图像。 灵感创作:智能的规模涌现 3、视频:Sora的⾰命性进步 ➡ ⽂字描述频。 ⼀分钟的⾼清视 ⼀个时髦的⼥⼈⾛在东京的街道上,到处都是温暖的霓虹灯和⽣动的城市标志。她穿着⿊⾊⽪夹克、红 ⾊⻓裙、⿊⾊靴⼦,拿着⼀个⿊⾊钱包。她戴着太阳镜,涂着红⾊的⼝红。她⾛起路来⾃信⽽随意。街道是潮湿和反光的,创造了⼀个彩⾊灯光的镜⼦效果。许多⾏⼈⾛来⾛去。 ⼏只巨⼤的⻓⽑猛犸象穿过⼀⽚⽩雪覆盖的草地,它们⻓⻓的⽑茸茸的⽪⽑在⻛中轻拂,远处⽩雪覆盖的树⽊和戏剧性的雪⼭,午后的光线与缕缕的云和远处的太阳创造了温暖的光芒,低相机的视⻆是惊⼈的,捕捉到了美丽的摄影,景深的⼤型⽑茸茸的哺乳动物。 灵感创作:智能的规模涌现 3、视频:视频⽣成的技术背景 主要 视频⽣ 成模型对⽐ Pika Runway 许多先前的⼯作已经研究了使⽤各种⽅法对视频数据进⾏⽣成建模,包括RNN循环神经 ⽹络、GAN⽣成对抗⽹络,Transfomer和Diffusion模型。这些作品通常关注⼀⼩类视觉数据、较短的视频或固定⼤⼩的视频。Sora是视觉数据的通⽤模型,它可以⽣成不同时⻓ ⻓宽⽐和分辨率的视频和图像,最多可达⼀分钟的⾼清视频。 灵感创作:智能的规模涌现 3、视频:理解语意,多种输⼊ ⾃然语⾔输⼊ ⽤GPT4为训练语料标注⽂本 ⾃动扩展提示词 图像输⼊视频连接 灵感创作:智能的规模涌现 3、视频:编辑扩展,⽆限⾃由 ⾃由调整构图 ⼀句话改变视频背景向前向后延伸循环 世界模型:模拟预测万物运⾏ 物理规律因果关系 三维⼀致空间关系 OpenAI认为,Sora不仅是⼀个视频⽣成器,更⼤的意义是⼀个通向世界模型和AGI的触⻆和可⾏路径。与⼈对世界的认知过程相似,Sora通过视频学习,建⽴了对世界运⾏规律的认知。 世界模型:实现GPT时刻,但尚存不⾜ (1)对世界的物理规则的理解还不完美,不能准确地模拟许多基本相互作用的物理过程,例如玻璃破碎。 (2)长视频生成时容易出现不连贯或者物体凭空出现的现象。 Prompt:flythroughtourofamuseumwithmanypaintingsandsculpturesandbeautifulworksofartinallstyles 提示词:⻜越博物馆之旅,那⾥有许多绘画和雕塑以及各种⻛格的精美艺术品 Prompt:analienblendinginnaturallywithnewyorkcity,paranoiathrillerstyle,35mmfilm 提示词:与纽约市⾃然融为⼀体的外星⼈,偏执惊悚⻛格,35毫⽶胶⽚ 02 创意策划 内容生产传播交互 ⾏业的危与机 广告营销 行业拓展 由于专业的承载物与表达⽅式都与新技术完全匹配,媒体⾏业会受到最直接的影响。 安全监管 创意策划:激发创意,辅助表达 基于AIGC工具的插画人物绘制过程——天美工作室群 线稿示意图 场景图插画过程图游戏插画图 在插画绘制过程中,美术人员首先会根据线稿图生成蒙版图和语义图,然后结合ControlNet去精细化的控制生成细节,最终通过多次迭代后,再进行风格迁移得到满意的插画图。原本一副插画需要1名美术人员5天完成,借助AIGC工具后,可以实现制作效率大幅提升,制作周期缩短至1天。 ,不宣传的情况下 Sora⼊住TikTok 内容⽣产:⼯具迭代,降低门槛,提⾼效率 4天涨粉10万,50万赞 Sora将率先在短视频、⼴告、互动娱乐、影视制作和媒体等⾏业中得到应⽤。在这些领域,利⽤Sora的多模态⼤模型能⼒,可以辅助内容⾏业的⼯作者更⾼效地创作视频,不仅加快了⽣产速度,还提⾼了产�数量,并为⽤户带来前所未有的视觉体验。这将助⼒企业实现成本降低、效率提升,并进⼀步优化⽤户体验。 ——IDC中国 好莱坞梦工厂创始人JeffreyKatzenberg在近期预测,“生成式AI将使动画电影的成本,在未来3年内降低90%,该技术将给媒体和娱乐行 业带来彻底的颠覆”。(近十年的动画电影制作成本约为1.3亿-1.75亿美.元/部,平均成本为1.47亿美元/部) 传播交互:平⾯、视频到3D沉浸 键盘鼠标指令 触屏操作 语音交互有限指令 人机自然交流 全息沉浸 机器指令识别⼈类语⾳、动作理解⼈类语⾔理解空间/理解世界 更贴近机器的交互方式 更贴近人的交互方式 Sora可以⽣成3维⼀致的空间场景,甚⾄可以直接⽣成Minecraft游戏场景并控制中的玩家,与XR设备配合,将加速⼈们的⽇常体验向元宇宙迁移。 Midjourney首席执行官DaVidHolz判断道,“未来可能实现以每秒30帧的高分辨率实时生成内容,并且到2030年 ,可能会实现整个视频游戏的生成。”Sora的到来将⼤⼤提前这⼀进程。 ⼴告营销:从千⼈⼀⾯,到⼀品千⾯ 市场营销是最大的场景 数据来源:grandviewresearch •创意和个性化⽔平增强:Sora的⽣成能⼒可以帮助品牌创造�更具创意和个性化的短视频⼴告内容,满⾜不同消费者群体的喜好,从⽽提⾼⼴告的吸引⼒和转化率。 •提⾼⼴告投放的灵活性:品牌可以更加灵活地进⾏市场测试和⼴告投放,快速调整⼴告策略,以适应市场变化。 ⾏业拓展:沉浸互动的未来教育 符号学习实物学习沉浸学习 •沉浸体验:⾝临其境教学,沉浸式⾃由交互。⽆论是⾝临外星环境、亲历历史场景,还是深⼊微观世界甚⾄⽣物体内,都是可 以轻易实现的。提⾼了学习的趣味性和参与度,使复杂或抽象的概念更容易理解和记忆。 •游戏化学习:Sora已经表现�其构建游戏场景的能⼒,可以将游戏化元素融⼊学习中,提⾼学⽣的参与度和学习动⼒。通过奖励系统、进度追踪和互动挑战,学习过程可以变得更加有趣和吸引⼈。这是沉浸体验的进⼀步升级。 •创意驱动:使学⽣能够通过语⾔交互快速⽣成和修改图像、视频或建筑设计,从⽽更多地专注于培养想象⼒、故事讲述能⼒和 复杂系统的理解。这种⽅式可以极⼤地促进创造性思维的发展。 安全监管:风险与挑战 •AI作为⽣产⽅式变⾰与⽣产⼯具升级的代表,趋势 ⽆法抵挡; •模型及其参数,富含意识形态信息,从语料投放开始就带有价值倾向,内容输�是价值倾向的表达; •从⽂、图到视频,逐渐升维,信息内容隐蔽性更强, 监管难度递增; •内容⽣产⻔槛降低,受众⾯⼤,监管难度增强。 不同形态视频受到的差异化影响 •不同形态视频受AIGC影响进程不同; 甲⼦光年 •⾼质量、⼯业化的⻓视频领域,会将AI作为⽣产⼯具,提供素材、压缩产业链;新闻等⾼度准确性场景,仅会少量应⽤; •短视频正在进⼊AI原⽣阶段,可能⼤量实现UGC+AIGC; 重塑后的短视频产业链 甲⼦光年 •AIGC视频生成技术将会打破短视频的原有产业链,大幅度压缩简化生产制作流程和角色分工,实现一键生成的allinone原生模式。新的视频平台范式将具有无序、沉浸,实时、互动、去中⼼化的AI原生特征。 •在AIGC对视频产业链的技术变革下,有望孵化出新一代的集短视频制作、分发、变现为一体的全新形态的视频平台。 •新型的制播一体的AI原生内容平台应该是融合AI创意工具+AI原生视频工具+变现平台三大环节的AI原生短视频平台。 重塑后的长视频产业链 甲⼦光年 •重塑后的视频产业链将整合简化为三大环节:创意生成—视频生成—宣发播映; •随着制作环节难度下降,好故事、好脚本等产业链上游的创意环节将成为视频产业的核心竞争力; •原有产业链的投资环节主要针对内容制造环节,未来文娱和技术投资将走向融合。 01 02 03 变与不变 不变?变! 不变|内容:稀缺的真实性 1、资讯:绝对真实,识别造假 超级视频⼯⼚,基于原⽚⽣成多种⻛格,适应不同渠道⾕歌Gimini1.5,识别Saro⽣成视频中的不合理之处 不变|内容:稀缺的真实性 2、知识:信息准确,体验丰富 (关于过去和未来的想象) 淘⾦热时期加州的历史镜头。 每个国家都需要⾃⼰的主权AI基础设施,要将语⾔和你的⽂化数据编纂成你⾃⼰的⼤型语⾔模型。 ——⻩仁勋 不变|内容:稀缺的真实性 3、故事:发挥创意,利⽤幻觉 ⼀只卡通袋⿏跳迪斯科。⼀个华丽渲染的珊瑚礁纸⼯艺品世界,到处都是五颜六⾊的⻥和海洋⽣物。 不变|思想:⼈的创造⼒ 大模型生成飞行器Lilium飞行汽车 不变|信息传播:⾏业的社会功能 民生新闻 体育新闻 电子竞技 “报”转视频 即时新闻 民生事件 对话访谈 专题纪实 设备是⼈类延伸的器官,服务⽆⾮是⼈类延伸的意识——Pony给麦克卢汉的《理解媒介》做的推荐语 内容⽣成供给侧产量提升,价值链向传播侧倾斜,传播平台的稀缺性和通道重要性越发凸显。 变|⼯具:拥抱变化,共创未来 1、⽤——成熟产品,积极应⽤ “骑在马上挥手的小孩子” 素材库 ⽂本理解模型 ⽂本向量化编码 查询⽂本 特征库 跨模态高维特征 图像语义跨模