多模态技术高速迭代催化AI应用落地。12月7日,谷歌多模态大模型Gemini 1.0正式上线,多模态大模型迎来重大突破。多模式技术旨在将不同类型数据如图像、视频、音频等融入到大语言模型。通过结合不同的模态,使模型能够更准确的理解外部世界。多模态技术的高速迭代,使得一些AI+应用场景迎来机会,AI+绘图、AI+视频等图片类AI应用得以落地。 AI扩图新功能横空出世,APP竞相迎合用户需求。AI扩图是一种利用人工智能算法对图像进行扩展处理的技术,AI扩图属于AI画图,是多模态的分支。 2023年7月11日,美图秀秀APP正式上线“AI扩图”功能,将AI扩图带进了大众的视野,随后多款APP均上线此功能;抖音旗下的产品剪映APP凭借短视频的传播也拥有许多用户,其采用多元化的视频模板将成品图片输出;许多小众APP如Wink、Uncrop等的该功能均被广泛使用。 各AI扩图产品使用对比。经过我们的测评,可以发现美图秀秀对于有主体的图片会沿着其基本边缘拓展,没有出现断开主体的情况,扩图偏保守,重点拓展背景且不新增要素。Wink扩充背景效果较优,对于有主体的图片可能存在瑕疵。剪映成品输出形式为视频,需要截图保存图片,整体扩图表现优秀。 Uncrop扩图后会新增主体,风格偏鲜艳,但由于要素新增过多可能存在瑕疵。 一次生成多种风格以及多要素的增加可为创作者提供新的思路。 投资建议与关注标的:多模态技术高速发展,文生图、文生视频能力未来可期,AI+绘图、AI+视频值得关注。建议关注多模态应用和大模型基座相关标的:1)AI+绘图:万兴科技;2)AI+视频:当虹科技、虹软科技;3)大模型基座:科大讯飞。 风险提示:大模型研发不及预期、政策不及预期、行业竞争加剧、扩图测试结论存在误差仅供参考。 一、多模态高速迭代,引领AI扩图横空出世 多模态技术高速迭代催化AI应用落地。12月7日,谷歌多模态大模型Gemini 1.0正式上线,多模态大模型迎来重大突破。多模式技术旨在将不同类型数据如图像、视频、音频等融入到大语言模型。通过结合不同的模态,使模型能够更准确的理解外部世界。多模态技术的高速迭代,使得一些AI+应用场景迎来机会,AI+绘图、AI+视频等图片类AI应用得以落地。 AI扩图新功能横空出世,APP竞相迎合用户需求。2023年5月,Adobe Photoshop测试版上线“Generative Fill”AI图像合成工具,该功能使用“Adobe Firefly”图像合成模型,通过学习Adobe的素材图片对图像进行扩展延伸。2023年7月,Midjourney更新“平移扩图”功能,可以将图片自由前后平移,相较于之前推出的“Zoom Out”功能里只能固定的“扩图1.5倍”或“扩图2倍”,显得更加人性化。DALL-E、Stable Diffusion、Photoshop的Generative Fill等应用都用到了一种叫做Outpainting的技术。Outpainting是一种图像处理技术,与Inpainting(图像内部填充)相反,可以根据现有图像的内容、风格和上下文,合成与原始图像相协调的新内容,从而扩展图像的视觉范围。 国内大众软件推出AI扩图功能,全民参与AI图片创作。2023年7月11日,美图秀秀APP正式上线“AI扩图”功能,将AI扩图带进了大众的视野,随后多款APP均上线此功能;抖音旗下的产品剪映APP凭借短视频的传播也拥有许多用户,其采用多元化的视频模板将成品图片输出;许多小众APP如Wink、Uncrop等的该功能均被广泛使用。 图表1扩图软件介绍 目前大多数AI扩图功能皆可免费尝试,后续使用服务略有不同。美图秀秀和Wink每天可免费扩图3次,后续需开通软件VIP;Uncrop和剪映均可免费使用。 图表2 AI扩图软件商业模式 二、不同产品相继上市,用户体验各有特色 美图秀秀扩图偏保守,重点拓展背景且不新增要素。其扩图风格为对于有主体的图片会沿着其基本边缘拓展。制作过程简单,打开软件后选择AI扩图功能,可以进行等比扩大,也可以按照一定的比例自由扩大且不满意可重新编辑。 图表3美图秀秀扩图成品 Wink扩充背景效果较优,对于有主体的图片扩图效果可能存在瑕疵。制作过程简单,打开软件后选择AI扩图功能,可以进行等比扩大,也可以按照一定的比例自由扩大且不满意可重新编辑。 图表4 Wink扩图成品 剪映成品输出形式为视频,需要截图保存图片,整体扩图效果较优。制作路径相对复杂,打开剪映后点击剪同款“一键解锁AI智能扩图”,选择喜欢的模板即可上传图片生成视频,若需图片则自行截图。 图表5剪映扩图成品 Uncrop扩图后会新增主体,风格偏鲜艳,但由于要素新增过多可能存在瑕疵。可自由设置图片尺寸,根据风格和内容随机生成四张扩充图像,一次生成多种风格以及多要素的增加可为创作者提供新的思路。制作路径相对复杂,使用网站或APP导入图片,自由选择扩大的比例以及原图在成品中的位置即可生成图片。 图表6 Uncrop扩图成品 现有的AI扩图功能比较相似,但其成品表现略有差异。AI扩图功能的出现能够大大减少画图的工作量,并为创作者提供新的创意。基于简单的AI扩图可产出许多衍生创作,操作的简单易上手也大大增加了其传播的速度。目前各大平台推出的AI扩图功能还未实现全面商用,一旦技术成熟,预计会全面商用。 图表7扩图软件基本功能对比 三、投资建议与关注标的 多模态技术高速发展,文生图、文生视频能力未来可期,AI+绘图、AI+视频值得关注。 建议关注多模态应用和大模型基座相关标的:1)AI+绘图:万兴科技;2)AI+视频:当虹科技、虹软科技;3)大模型基座:科大讯飞。 四、风险提示 大模型研发不及预期、政策不及预期、行业竞争加剧、扩图测试结论存在误差仅供参考。