您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[腾讯]:混元视频生成技术介绍 - 发现报告

混元视频生成技术介绍

2024-03-25腾讯秋***
AI智能总结
查看更多
混元视频生成技术介绍

混元视频⽣成技术介绍 王红法混元视频⽣成技术负责⼈ •视频⽣成的技术介绍•混元视频⽣成能⼒介绍 ⽣成模型:统计机器学习中的⼀⼤领域 ⽣成模型:更具挑战与价值 核⼼问题: 学习⼀个从简单(先验)分布到复杂(⽬标)分布的映射/转换。 ⽣成模型的挑战:需要更多数据&计算,才能学习好数据的分布。 ⽣成模型的价值: •判别模型: 学习完成后,只需从简单分布采样⼀个随机样本,通过⽣成模型即可输出⼀张图像或⼀段视频,显著降低获取数据的代价; 寻找⼀个决策边界,通过该边界来将样本划分到对应类别。 当前主流的⽂⽣图模型、⽂⽣视频模型、⽂⽣3D模型,都属于⽣成模型的范畴。 •⽣成模型: 学习每个类别的概率分布,它包含了更多信息,可以⽤来⽣成样本。 扩散模型:图像/视频⽣成的主流⽅法 https://lilianweng.github.io/posts/2021-07-11-diffusion-models/#forward-diffusion-process 基于扩散模型的视频⽣成pipline ①⽂本/图⽚编码器:提取⽂本(或图像]的embedding,作为条件引导视频扩散模型的训练;②时空扩散模型:空域-时域交替扩散,从噪声序列中迭代去噪,得到⼩分辨率视频;③超分模型:进⼀步得到画质更⾼、更流畅的⾼分辨率视频; 视频⽣成的难点与解决⽅案 难点2:语义对齐准确 难点3:画质细节精美 难点1:动作建模合理 Ø数据层⾯:开源视⽂数据量⼩(~10M量级)Ø模型层⾯:视频动作分布差异⼤,建模困难Ø资源层⾯:⾼纬度计算复杂度⾼,训练低效 Ø数据层⾯:开源视⽂数据脏,噪声⼤,粒度粗;中⽂、中国元素缺少Ø模型层⾯:CLIP⽂本语义表征能⼒有待增强 Ø数据层⾯:开源视⽂数据分辨率低、有⽔印Ø模型层⾯:图⽚超分、传统视频超分都不适⽤ •视频⽣成的技术介绍•混元视频⽣成能⼒介绍 核⼼能⼒1-⽂⽣视频 l输⼊任意⽂案题词,⽣成多时长多分辨率视频 核⼼能⼒2:图⽣视频 l输⼊任意尺⼨图⽚,⽣成合理动作的视频 核⼼能⼒3:图+⽂⽣视频 l输⼊任意尺⼨图⽚+⽂案题词,⽣成指定动作的视频 视频⽣成应⽤-视频风格化 l⽤户输⼊视频,选择转换的风格,⽣成对应风格的视频,⽀持最多15s视频⽣成。 交互⽅式 视频⽣成应⽤:跳舞视频 l输⼊原始图像,⽣成指定舞蹈的跳舞视频l⽀持多种舞蹈模板,单⼈、多⼈、动物、动漫等各种主体形式 1.⽤户上传视频 视频⽣成应⽤:运动笔刷 l输⼊原始图像,指定需要运动的区域,⽣成对应指令的视频 followyourclick,⼀键点,万物动 视频⽣成应⽤:区域重绘 l输⼊原始视频,指定任意区域,根据指定重绘指定区域 交互⽅式 1.⽤户输⼊视频,选择重绘区域 视频⽣成:画布扩展 l输⼊原始视频,⽀持视频画布任意⽐例的扩张(横转竖、竖转横、任意外扩等) 视频⽣成:特效⽣成 l输⼊多张图⽚,⽣成动态插帧视频 l输⼊⽂字图⽚,⽣成艺术字视频 ⽤户输⼊ THANKS!感谢聆听 王红法混元视频⽣成技术负责⼈