您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[腾讯]:混元视频生成技术介绍 - 发现报告
当前位置:首页/其他报告/报告详情/

混元视频生成技术介绍

2024-03-25腾讯秋***
混元视频生成技术介绍

混元视频⽣成技术介绍 王红法混元视频⽣成技术负责⼈ •视频⽣成的技术介绍 •混元视频⽣成能⼒介绍 快速发展的⽂⽣视频 ⽣成模型:统计机器学习中的⼀⼤领域 ⽣成模型:更具挑战与价值 核⼼问题: 学习⼀个从简单(先验)分布到复杂(⽬标)分布的映射/转换。 ⽣成模型的挑战: 需要更多数据&计算,才能学习好数据的分布。 •判别模型: 寻找⼀个决策边界,通过该边界来将样本划分到对应类别。 •⽣成模型: 学习每个类别的概率分布,它包含了更多信息,可以⽤来⽣成样本。 ⽣成模型的价值: 学习完成后,只需从简单分布采样⼀个随机样本,通过⽣成模型即可输出⼀张图像或⼀段视频,显著降低获取数据的代价; 当前主流的⽂⽣图模型、⽂⽣视频模型、⽂⽣3D模型,都属于⽣成模型的范畴。 扩散模型:图像/视频⽣成的主流⽅法 FromGAN、VAEtoDMFromImagetovideo 扩散模型应⽤于图像⽣成扩散模型应⽤于视频⽣成 https://lilianweng.github.io/posts/2021-07-11-diffusion-models/#forward-diffusion-process 基于扩散模型的视频⽣成pipline "Ironmandancingonthestreet" ① TextEncoder ⽂本prompt ImageEncoder 图⽚prompt ② 空间域 时间域 噪声序列 ③ ①⽂本/图⽚编码器:提取⽂本(或图像]的embedding,作为条件引导视频扩散模型的训练; ②时空扩散模型:空域-时域交替扩散,从噪声序列中迭代去噪,得到⼩分辨率视频; ③超分模型:进⼀步得到画质更⾼、更流畅的⾼分辨率视频; 视频⽣成的难点与解决⽅案 数据层⾯:开源视⽂数据量⼩(~10M量级) 模型层⾯:视频动作分布差异⼤,建模困难 资源层⾯:⾼纬度计算复杂度⾼,训练低效 动作不⾃然画⾯不连贯 动作不合理 画⾯静⽌ 数据层⾯:开源视⽂数据脏,噪声⼤,粒度粗;中⽂、中国元素缺少 模型层⾯:CLIP⽂本语义表征能⼒有待增强 数量(4只猫)颜⾊(黄⾊背景) 亚洲元素(包⼦) 风格(油画风) 数据层⾯:开源视⽂数据分辨率低、有⽔印 模型层⾯:图⽚超分、传统视频超分都不适⽤ 画⾯质感差 画⾯细节糊 ⼈脸肢体畸形 超分闪动 难点1:动作建模合理难点2:语义对齐准确难点3:画质细节精美 更强的时空建模更好的语义模型&更⼴泛的语料图视⼀体&⽣成式超分 •视频⽣成的技术介绍 •混元视频⽣成能⼒介绍 混元视频⽣成,4+X能⼒覆盖 混元⽂⽣视频 4⼤核⼼能⼒(⽀持1k~4k分辨率视频⽣成) 视频⽣视频 图⽂⽣视频 图⽣视频 ⽂⽣视频 X种产品玩法 ...... 艺术字视频 视频写真 视频重绘 运动笔刷 跳舞视频 视频风格化 核⼼能⼒1-⽂⽣视频 输⼊任意⽂案题词,⽣成多时长多分辨率视频 效果展 ⽰ 时尚⿊发⼥性在暗影霓虹灯下展⽰⾹⽔瓶 穿着西装的猫⽼⼤正坐在办公桌前看着电脑。 ⽤⽵蒸笼蒸包⼦或包⼦。仍然很热,冒着蒸汽。 横版(16:9) 多 宽 ⾼ ⽐ ⽣ 成 多2s 时 长 ⽣成 ⽅形(1:1) 3s 竖版(9:16) 4s 核⼼能⼒2:图⽣视频 输⼊任意尺⼨图⽚,⽣成合理动作的视频 ⽀ 持 不 同 图 ⽚ 风 格 图 ⽚ 主 体 细 节 ⼀致 核⼼能⼒3:图+⽂⽣视频 输⼊任意尺⼨图⽚+⽂案题词,⽣成指定动作的视频 ⽂本提词:帆船驶⼊港⼝⽂本提词:汉堡,旋转⽂本提词:赛车竞速 ⽂本提词:⼥⼈在逛街⽂本提词:让画动起来⽂本提词:倒苹果汁 长视频⽣成 ⼈民⽇报两会宣传⽚:江⼭如此多娇 视频⽣成应⽤-视频风格化 ⽤户输⼊视频,选择转换的风格,⽣成对应风格的视频,⽀持最多15s视频⽣成。 交互⽅式效果展⽰ 1.⽤户上传视频2.选择转换风格 2D动漫风3D卡通风 视频⽣成应⽤:跳舞视频 输⼊原始图像,⽣成指定舞蹈的跳舞视频 ⽀持多种舞蹈模板,单⼈、多⼈、动物、动漫等各种主体形式 1.⽤户上传视频2.选择转换风格 视频⽣成应⽤:运动笔刷 输⼊原始图像,指定需要运动的区域,⽣成对应指令的视频 交互⽅式效果展⽰ 1.⽤户输⼊图⽚,点选运动主体 2.输⼊指令 “扭头” "哭泣" "开⼼" followyourclick, ⼀键点,万物动 视频⽣成应⽤:区域重绘 输⼊原始视频,指定任意区域,根据指定重绘指定区域 交互⽅式 1.⽤户输⼊视频,选择重绘区域 2.输⼊指令 “把球换成苹果” 效果展⽰ + Redshirt Blondhair Sunglasses 视频⽣成:画布扩展 输⼊原始视频,⽀持视频画布任意⽐例的扩张(横转竖、竖转横、任意外扩等) 原视频 扩展视频 视频⽣成:特效⽣成 艺术字⽣成视频插帧 输⼊⽂字图⽚,⽣成艺术字视频输⼊多张图⽚,⽣成动态插帧视频 ⽤户输 ⼊ ⽣成视频 THANKS! 感谢聆听 王红法混元视频⽣成技术负责⼈