您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[腾讯]:从GPT到Sora谈AIGC与传媒变革 - 发现报告
当前位置:首页/其他报告/报告详情/

从GPT到Sora谈AIGC与传媒变革

2024-05-24腾讯向***
从GPT到Sora谈AIGC与传媒变革

从GPT到Sora谈AIGC与传媒变⾰ 王鹏腾讯研究院资深专家,教授级高工 ⽬录 01Sora的能与不能 02⾏业的危与机 03变与不变 世界 模型 灵感 创作 ⼯作 辅助 知识 学习 01 Sora的能与不能 知识学习:token与patches,统⼀的信息压缩思想 token:⽂本中的最⼩有意义的单位,⽤向量存储。 patch:Sora使用视觉补丁( patches)作为其表示方式。 Transformer:是⼀种深度学习模型,⽤于处理序列数据。⽤⼀套逻辑实现了对世界运⾏规律的学习。ChatGPT:⼀个基于Transfomer架构的⼤型语⾔模型,⽤于⽣成连贯的⽂本回复。它通过学习⼤量⽂本数据,考虑语⾔结构和语义,并在回复时综合上下⽂信息。 Sora:通过时空patch实现了图像和视频数据压缩,并基于Transformer进⾏多模态计算。 知识学习:通识知识训练与⾏业知识获取 与人类学习的方式类似,大模型也需要从基础教育、通识教育到专业学习。通过对海量知识的压缩与训练,获得常识性知识;行业知识往往掌握在行业机构和企业手中,需要广泛合作,获取更专业的特定能力。 ⼯作辅助:翻译、编程、采编、摘要…… 腾讯会议⾃动纪要微信读书⾃动翻译 灵感创作:智能的规模涌现 1、⽂字:从猜字填空到创意写作 新闻智能标题 通过⾃然语⾔处理⽅式,按照新闻语⾔风格,智能化地概括⽂本内容,可以⽤于智能标题的拟定。 •智能标题:仁怀:坚守⽣态底线提升民⽣福祉 •原始标题:⾛进县城看发展贵州仁怀:坚持绿⾊发展提升民⽣福祉 好⽔、好⼟产好粮。为了保护好⾚⽔河的⽣态,仁怀近年来下⼤⼒⽓实现了 ⼯业核⼼区废⽔收集处理全覆盖,城镇⽣活污⽔处理率达95%,⾚⽔和⽔质如今常年稳定在地表⼆类以上。 守牢⽣态底线,在⾼质量发展中保障和发展民⽣。党的18⼤以来,在⽯漠化严重的⼭区,仁怀持续加⼤基础设施建设投⼊和退耕还林⼒度,帮助当地群众打造农旅⼀体的⽣态观光业,以创建省级⽣态乡镇13个,市级⽣态村寨127个。仁怀还下决⼼对城区最⼤的垃圾填埋场进⾏彻底改造和⽣态修复,为群众打造出⼀个鸟语花⾹的⽣态公园。近五年,仁怀绿化造林30余万亩,森林覆盖率达56.35%,城镇新增就业36524⼈,乡村两级医疗卫⽣机构规范化建设全覆盖,公通车总⾥程达3961公⾥…… ⽂本补全:短语补全、⽹络例句、风格化⽂本AI续写 (科幻、军事、武侠、职场):协助创作风格鲜明、妙趣横⽣的新内容。 灵感创作:智能的规模涌现 2、图像:扩散模型,设计应⽤ 2022年8月,游戏设计师杰森·艾伦使用Midjourney模型生成的《太空歌剧院》,获得艺术博览会冠军 Diffusion扩散模型:就像⼀滴墨⽔落⼊⼀杯⽔中。墨⽔会在⽔中扩散。⼏分钟后,它会在⽔中随机分布。正向扩散过程会逐步向图像添加噪声,最终让图像丧失原有的特征,⽆法分辨其原始类别,就像墨⽔在⽔中扩散⼀样。从⼀个嘈杂⽆意义的图像开始,通过输⼊⽂本条件,逆向扩散可以恢复⼀张图像。 Sora和SD3都是基于DiffusionTransformer(DiT) 对抗生成网络(GAN,2014) 作者IanGoodfellow(Bengio的学生,在Google,Apple都工作过 (缺点是计算量大和难以控制) 扩散模型(DiffusionModel,2020) 每次扩散必须是小幅高斯噪声),就使得这个随机过程具有良好的数学性质和刻画能力,通过深度学习SGD训练,就能得到生成图像的逆向模型了。 ViT(VisionTransformer2020) 首次让Transformer这个NLP技术,可以被应用到领域之外图像识别的场景。而在ViT里,就已经引入了图像块(Patches)这个重要的技巧,将图像转化成Tokens来处理 潜扩散模型(LatentDiffusionModel,2021) 用各种纯数学、自适应、模型训练等等的方法,来将数据转化为更低维度的数据(可以理解为“压缩”) 通过将图像分成小块,就可以用潜空间向量来表示图像,大幅降低数据的维度和复杂度,让视频生成问题变成可解决的问题。 稳定扩散模型(StableDiffusion) 通过CLIPText文本编码器,理解提示词,然后利用Imageinformationcreator图像信息创建器反复生成图像,最后利用ImageDecoder图像解码器生成最终图像。 DiT(DiffusionTransformer,2022) 当前,语言生成、翻译、语音识别、图像识别都在往Transformer上面靠,而且纷纷成功,唯有图像生成这个领域还在用UNet这样的卷积模型,所以这次Sora的技术路线转向Transformer也是趋势必然。 灵感创作:智能的规模涌现 3、视频:Sora的⾰命性进步 ➡ ⽂字描述⼀分钟的⾼清视频。 ⼀个时髦的⼥⼈⾛在东京的街道上,到处都是温暖的霓虹灯和⽣动的城市标志。她穿着⿊⾊⽪夹克、红 ⾊⻓裙、⿊⾊靴⼦,拿着⼀个⿊⾊钱包。她戴着太阳镜,涂着红⾊的⼝红。她⾛起路来⾃信⽽随意。街道是潮湿和反光的,创造了⼀个彩⾊灯光的镜⼦效果。许多⾏⼈⾛来⾛去。 ⼏只巨⼤的⻓⽑猛犸象穿过⼀⽚⽩雪覆盖的草地,它们⻓⻓的⽑茸茸的⽪⽑在⻛中轻拂,远处⽩雪覆盖 的树⽊和戏剧性的雪⼭,午后的光线与缕缕的云和远处的太阳创造了温暖的光芒,低相机的视⻆是惊⼈的,捕捉到了美丽的摄影,景深的⼤型⽑茸茸的哺乳动物。 灵感创作:智能的规模涌现 3、视频:视频生成的技术背景 主要 视频⽣ 成模型对⽐ Pika Runway 许多先前的⼯作已经研究了使⽤各种⽅法对视频数据进⾏⽣成建模,包括RNN循环神经 ⽹络、GAN⽣成对抗⽹络,Transfomer和Diffusion模型。这些作品通常关注⼀⼩类视觉数据、较短的视频或固定⼤⼩的视频。Sora是视觉数据的通⽤模型,它可以⽣成不同时⻓ ⻓宽⽐和分辨率的视频和图像,最多可达⼀分钟的⾼清视频。 灵感创作:智能的规模涌现 3、视频:理解语意,多种输⼊ ⾃然语⾔输⼊ ⽤GPT4为训练语料标注⽂本 ⾃动扩展提示词 图像输⼊视频连接 灵感创作:智能的规模涌现 3、视频:编辑扩展,⽆限⾃由 ⾃由调整构图 ⼀句话改变视频背景向前向后延伸循环 世界模型:模拟预测万物运⾏ 物理规律因果关系 三维⼀致空间关系 OpenAI认为,Sora不仅是⼀个视频⽣成器,更⼤的意义是⼀个通向世界模型和AGI的触⻆和可⾏路径。与⼈对世界的认知过程相似,Sora通过视频学习,建⽴了对世界运⾏规律的认知。 世界模型:实现GPT时刻,但尚存不⾜ (1)对世界的物理规则的理解还不完美,不能准确地模拟许多基本相互作用的物理过程,例如玻璃破碎。 (2)长视频生成时容易出现不连贯或者物体凭空出现的现象。 Prompt:flythroughtourofamuseumwithmanypaintingsandsculpturesandbeautifulworksofartinallstyles 提示词:⻜越博物馆之旅,那⾥有许多绘画和雕塑以及各种⻛格的精美艺术品 02 创意策划 内容生产传播交互 ⾏业的危与机 广告营销 行业拓展 由于专业的承载物与表达⽅式都与新技术完全匹配,媒体⾏业会受到最直接的影响。 安全监管 创意策划:激发创意,辅助表达 基于AIGC工具的插画人物绘制过程——天美工作室群 线稿示意图 场景图插画过程图游戏插画图 在插画绘制过程中,美术人员首先会根据线稿图生成蒙版图和语义图,然后结合ControlNet去精细化的控制生成细节,最终通过多次迭代后,再进行风格迁移得到满意的插画图。原本一副插画需要1名美术人员5天完成,借助AIGC工具后,可以实现制作效率大幅提升,制作周期缩短至1天。 内容⽣产:⼯具迭代,降低门槛,提⾼效率 Sora⼊住TikTok,不宣传的情况下 4天涨粉10万,50万赞 Sora将率先在短视频、广告、互动娱乐、影视制作和媒体等行业中得到应用。在这些领域,利用Sora的多模态大模型能力,可以辅助内容行业的工作者更高效地创作视频,不仅加快了生产速度,还提高了产出数量,并为用户带来前所未有的视觉体验。这将助力企业实现成本降低、效率提升,并进一步优化用户体验。 ——IDC中国 好莱坞梦工厂创始人JeffreyKatzenberg在近期预测,“生成式AI将使动画电影的成本,在未来3年内降低90%,该技术将给媒体和娱乐行业带来彻底的颠覆”。(近十年的动画电影制作成本约为1.3亿-1.75亿美.元/部,平均成本为1.47亿美元/部) 传播交互:平⾯、视频到3D沉浸 键盘鼠标指令 触屏操作 语音交互有限指令 人机自然交流 全息沉浸 机器指令识别⼈类语⾳、动作理解⼈类语⾔理解空间/理解世界 更贴近机器的交互方式 更贴近人的交互方式 Sora可以生成3维一致的空间场景,甚至可以直接生成Minecraft游戏场景并控制中的玩家,与XR设备配合,将加速人们的日常体验向元宇宙迁移。 Midjourney首席执行官DaVidHolz判断道,“未来可能实现以每秒30帧的高分辨率实时生成内容,并且到 2030年,可能会实现整个视频游戏的生成。”Sora的到来将大大提前这一进程。 ⼴告营销:从千⼈⼀⾯,到⼀品千⾯ 市场营销是最大的场景 数据来源:grandviewresearch •创意和个性化水平增强:Sora的生成能力可以帮助品牌创造出更具创意和个性化的短视频广告内容,满足不同消费者群体的喜好,从而提高广告的吸引力和转化率。 •提高广告投放的灵活性:品牌可以更加灵活地进行市场测试和广告投放,快速调整广告策略,以适应市场变化。 ⾏业拓展:沉浸互动的未来教育 符号学习实物学习沉浸学习 •沉浸体验:身临其境教学,沉浸式自由交互。无论是身临外星环境、亲历历史场景,还是深入微观世界甚至生物体内,都是可 以轻易实现的。提高了学习的趣味性和参与度,使复杂或抽象的概念更容易理解和记忆。 •游戏化学习:Sora已经表现出其构建游戏场景的能力,可以将游戏化元素融入学习中,提高学生的参与度和学习动力。通过奖励系统、进度追踪和互动挑战,学习过程可以变得更加有趣和吸引人。这是沉浸体验的进一步升级。 •创意驱动:使学生能够通过语言交互快速生成和修改图像、视频或建筑设计,从而更多地专注于培养想象力、故事讲述能力和 复杂系统的理解。这种方式可以极大地促进创造性思维的发展。 安全监管:风险与挑战 •AI作为生产方式变革与生产工具升级的代表,趋势 无法抵挡; •模型及其参数,富含意识形态信息,从语料投放开始就带有价值倾向,内容输出是价值倾向的表达; •从文、图到视频,逐渐升维,信息内容隐蔽性更强, 监管难度递增; •内容生产门槛降低,受众面大,监管难度增强。 01 02 03 变与不变 不变?变! 不变|内容:稀缺的真实性 1、资讯:绝对真实,识别造假 超级视频⼯⼚,基于原⽚⽣成多种⻛格,适应不同渠道⾕歌Gimini1.5,识别Saro⽣成视频中的不合理之处 不变|内容:稀缺的真实性 2、知识:信息准确,体验丰富 (关于过去和未来的想象)淘⾦热时期加州的历史镜头。 每个国家都需要自己的主权AI基础设施,要将语言和你的文化数据编纂成你自己的大型语言模型。 ——黄仁勋 不变|内容:稀缺的真实性 3、故事:发挥创意,利用幻觉 ⼀只卡通袋⿏跳迪斯科。⼀个华丽渲染的珊瑚礁纸⼯艺品世界,到处都是五颜六⾊的⻥和海洋⽣物。 不变|思想:⼈的创造⼒ 大模型生成飞行器Lilium飞行汽车 不变|信息传播:⾏业的社会功能 民生新闻 体育新闻 电子竞技 “报”转视频 即时新闻 民生事件 对话访谈 专题纪实 设备是⼈类延伸的器官,服务⽆⾮是⼈类延伸的意识——Pony给麦克卢汉的《理解媒介》做的推荐语 内容生成供给侧产量提升,价值链向传播侧倾斜,传播平台的稀缺性和通道重要性越发凸显。 变