行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

AI+专题系列点评（一）：多模态时代下的AI扩图应用

信息技术 2023-12-13 吴鸣远华创证券淘金曹艳平

多模态技术驱动AI应用落地与创新

1. 多模态技术与AI应用的突破

Gemini 1.0：12月7日，谷歌推出了多模态大模型Gemini 1.0，标志着多模态技术的重大进展，这加速了AI应用的落地，特别是AI与绘画、视频的结合，如AI+绘图、AI+视频等领域。

2. AI扩图功能的兴起与普及

AI扩图功能：AI扩图技术在各类应用中崭露头角，包括美图秀秀、剪映、Wink、Uncrop等APP纷纷加入AI扩图功能，满足用户的图片扩展需求。
用户参与度：随着大众软件的加入，AI图片创作成为大众参与的热门活动，推动了AI技术的普及与应用。

3. 不同产品特性和用户体验

美图秀秀：侧重于背景的扩展，保持主体的完整性，适合追求自然风格的用户。
Wink：在主体周围添加背景，可能在处理有明显主体的图片时存在局限性。
剪映：以视频形式输出，通过模板快速生成图片，适用于短视频制作场景。
Uncrop：增加主体内容，风格鲜明，适合创意导向的用户，但可能因元素过多而产生瑕疵。

4. 投资方向与关注点

多模态应用：关注AI+绘图领域的公司，如万兴科技。
AI+视频：考虑投资涉及视频处理与生成技术的公司，如当虹科技、虹软科技。
大模型基座：关注基础模型构建的公司，如科大讯飞。

5. 风险提示

技术研发风险：大模型的持续研发可能面临技术瓶颈。
政策风险：政策环境的变化可能影响技术的应用与推广。
市场竞争风险：行业竞争加剧可能导致技术优势丧失。
测试结论风险：AI扩图技术的评估结果可能存在不确定性。

结论

多模态技术的快速发展正催化AI应用的创新与落地，特别是在AI扩图、AI+绘图和AI+视频领域展现出巨大的潜力。随着技术的不断进步和应用的普及，预计会有更多创新的AI功能和服务出现，同时，投资者应关注相关技术公司的动态，以把握市场机遇。然而，技术发展和应用过程中仍存在多重挑战和风险，需密切关注政策、市场和技术发展的动态。

多模态技术高速迭代催化AI应用落地。12月7日，谷歌多模态大模型Gemini 1.0正式上线，多模态大模型迎来重大突破。多模式技术旨在将不同类型数据如图像、视频、音频等融入到大语言模型。通过结合不同的模态，使模型能够更准确的理解外部世界。多模态技术的高速迭代，使得一些AI+应用场景迎来机会，AI+绘图、AI+视频等图片类AI应用得以落地。 AI扩图新功能横空出世，APP竞相迎合用户需求。AI扩图是一种利用人工智能算法对图像进行扩展处理的技术，AI扩图属于AI画图，是多模态的分支。 2023年7月11日，美图秀秀APP正式上线“AI扩图”功能，将AI扩图带进了大众的视野，随后多款APP均上线此功能；抖音旗下的产品剪映APP凭借短视频的传播也拥有许多用户，其采用多元化的视频模板将成品图片输出；许多小众APP如Wink、Uncrop等的该功能均被广泛使用。各AI扩图产品使用对比。经过我们的测评，可以发现美图秀秀对于有主体的图片会沿着其基本边缘拓展，没有出现断开主体的情况，扩图偏保守，重点拓展背景且不新增要素。Wink扩充背景效果较优，对于有主体的图片可能存在瑕疵。剪映成品输出形式为视频，需要截图保存图片，整体扩图表现优秀。 Uncrop扩图后会新增主体，风格偏鲜艳，但由于要素新增过多可能存在瑕疵。一次生成多种风格以及多要素的增加可为创作者提供新的思路。投资建议与关注标的：多模态技术高速发展，文生图、文生视频能力未来可期，AI+绘图、AI+视频值得关注。建议关注多模态应用和大模型基座相关标的：1）AI+绘图：万兴科技；2）AI+视频：当虹科技、虹软科技；3）大模型基座：科大讯飞。风险提示：大模型研发不及预期、政策不及预期、行业竞争加剧、扩图测试结论存在误差仅供参考。一、多模态高速迭代，引领AI扩图横空出世多模态技术高速迭代催化AI应用落地。12月7日，谷歌多模态大模型Gemini 1.0正式上线，多模态大模型迎来重大突破。多模式技术旨在将不同类型数据如图像、视频、音频等融入到大语言模型。通过结合不同的模态，使模型能够更准确的理解外部世界。多模态技术的高速迭代，使得一些AI+应用场景迎来机会，AI+绘图、AI+视频等图片类AI应用得以落地。 AI扩图新功能横空出世，APP竞相迎合用户需求。2023年5月，Adobe Photoshop测试版上线“Generative Fill”AI图像合成工具，该功能使用“Adobe Firefly”图像合成模型，通过学习Adobe的素材图片对图像进行扩展延伸。2023年7月，Midjourney更新“平移扩图”功能，可以将图片自由前后平移，相较于之前推出的“Zoom Out”功能里只能固定的“扩图1.5倍”或“扩图2倍”，显得更加人性化。DALL-E、Stable Diffusion、Photoshop的Generative Fill等应用都用到了一种叫做Outpainting的技术。Outpainting是一种图像处理技术，与Inpainting（图像内部填充）相反，可以根据现有图像的内容、风格和上下文，合成与原始图像相协调的新内容，从而扩展图像的视觉范围。国内大众软件推出AI扩图功能，全民参与AI图片创作。2023年7月11日，美图秀秀APP正式上线“AI扩图”功能，将AI扩图带进了大众的视野，随后多款APP均上线此功能；抖音旗下的产品剪映APP凭借短视频的传播也拥有许多用户，其采用多元化的视频模板将成品图片输出；许多小众APP如Wink、Uncrop等的该功能均被广泛使用。图表1扩图软件介绍目前大多数AI扩图功能皆可免费尝试，后续使用服务略有不同。美图秀秀和Wink每天可免费扩图3次，后续需开通软件VIP；Uncrop和剪映均可免费使用。图表2 AI扩图软件商业模式二、不同产品相继上市，用户体验各有特色美图秀秀扩图偏保守，重点拓展背景且不新增要素。其扩图风格为对于有主体的图片会沿着其基本边缘拓展。制作过程简单，打开软件后选择AI扩图功能，可以进行等比扩大，也可以按照一定的比例自由扩大且不满意可重新编辑。图表3美图秀秀扩图成品 Wink扩充背景效果较优，对于有主体的图片扩图效果可能存在瑕疵。制作过程简单，打开软件后选择AI扩图功能，可以进行等比扩大，也可以按照一定的比例自由扩大且不满意可重新编辑。图表4 Wink扩图成品剪映成品输出形式为视频，需要截图保存图片，整体扩图效果较优。制作路径相对复杂，打开剪映后点击剪同款“一键解锁AI智能扩图”，选择喜欢的模板即可上传图片生成视频，若需图片则自行截图。图表5剪映扩图成品 Uncrop扩图后会新增主体，风格偏鲜艳，但由于要素新增过多可能存在瑕疵。可自由设置图片尺寸，根据风格和内容随机生成四张扩充图像，一次生成多种风格以及多要素的增加可为创作者提供新的思路。制作路径相对复杂，使用网站或APP导入图片，自由选择扩大的比例以及原图在成品中的位置即可生成图片。图表6 Uncrop扩图成品现有的AI扩图功能比较相似，但其成品表现略有差异。AI扩图功能的出现能够大大减少画图的工作量，并为创作者提供新的创意。基于简单的AI扩图可产出许多衍生创作，操作的简单易上手也大大增加了其传播的速度。目前各大平台推出的AI扩图功能还未实现全面商用，一旦技术成熟，预计会全面商用。图表7扩图软件基本功能对比三、投资建议与关注标的多模态技术高速发展，文生图、文生视频能力未来可期，AI+绘图、AI+视频值得关注。建议关注多模态应用和大模型基座相关标的：1）AI+绘图：万兴科技；2）AI+视频：当虹科技、虹软科技；3）大模型基座：科大讯飞。四、风险提示大模型研发不及预期、政策不及预期、行业竞争加剧、扩图测试结论存在误差仅供参考。

点击免费查看完整报告

AI+专题系列点评（一）：多模态时代下的AI扩图应用

多模态技术驱动AI应用落地与创新

1. 多模态技术与AI应用的突破

2. AI扩图功能的兴起与普及

3. 不同产品特性和用户体验

4. 投资方向与关注点

5. 风险提示

结论

你可能感兴趣

AI+专题系列点评（二）：多模态时代下的AI商拍应用

AI+专题系列点评（四）：美图公司多模态AI应用点评

AI+专题系列点评（三）：万兴科技多模态AI应用点评

AI+专题系列点评（二十三）：AI Agent：AI应用时代已至

AI+专题系列点评（十四）：商汤科技引领AGI时代，“日日新”多模态大模型又日新

AI+家居行业系列专题（一）：AI在家居行业应用现状及展望

AI+专题系列点评（二十四）：国内大模型全面升级，坚定看好AI应用

AI+专题系列点评（二十七）：腾讯接入DeepSeek，AI应用生态再添强援

AI+专题系列点评（十七）：DeepSeek发布第二代MoE模型，降本增效有望加速AI应用普及

“AI+金融”系列专题研究（一）：行业拐点已至，金融是AI应用落地的绝佳“试验田”