行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

行业点评报告：ChatGPT推出语音和图像功能，多模态AI加速突破

信息技术 2023-09-26 陈宝健,闫宁开源证券 EMJENNNY

发现报告（www.fxbaogao.com）汇聚了全网最全的研报资源，数量之多令人惊叹。作为金融圈用户量极大的平台，我们覆盖了宏观、行业、公司及财报等全领域。我们追求极致的效率，设计极简，技术领先，帮您从海量数据中迅速抓取重点。无论是行业研究还是投资分析，这里都是您高效获取信息、实现精准决策的得力工具。

OpenAI推出语音和图像功能，多模态AI加速突破。谷歌和OpenAI持续加码，多模态AI加速突破。多模态大模型推动AI迈向“通感”时代，算力需求将大幅提升。投资建议：龙头推荐金山办公、科大讯飞、同花顺、三六零等。应用领域，推荐鼎捷软件、彩讯股份、焦点科技、拓尔思、致远互联等。底层算力领域，服务器端推荐中科曙光、浪潮信息，受益标的包括紫光股份等；GPU端，推荐海光信息，受益标的包括寒武纪、景嘉微等；华为昇腾生态，推荐卓易信息、神州数码等，受益标的包括四川长虹、烽火通信、拓维信息、同方股份等。AI监管领域，受益标的包括美亚柏科、永信至诚、人民网等。

事件：ChatGPT推出语音和图像功能 9月25日，OpenAI在官网发文表示在ChatGPT推出语音和图像功能，未来两周将向Plus和Enterprise用户推出，语音功能支持iOS和Android平台，图像功能支持全平台。（1）语音功能：用户可以与ChatGPT进行语音对话，让ChatGPT讲故事、读诗等。语音输入端，由开源语音识别系统Whisper将口语转录为文本；语音输出端，由新的文本转语音模型支持，可以从文本和几秒的语音样本中生成类似人类的音频。（2）图像功能：用户可以用图片向ChatGPT提问，支持多轮对话和多图识别，比如拍下冰箱照片询问ChatGPT晚餐吃什么。从OpenAI官网展示的应用案例来看，ChatGPT可以根据用户上传的自行车、说明书、工具箱照片，指引用户完成自行车座椅的调节。谷歌和OpenAI持续加码，多模态AI加速突破在5月的I/O大会上，谷歌推出对标GPT-4的大模型PaLM2，同时表示未来研究重心正转向多模态的Gemini。9月20日，OpenAI宣布推出新版文生图AI工具DALL-E3，DALL-E3通过集成ChatGPT能力实现多项升级。此前，根据The Information报告，OpenAI即将推出多模态大模型GPT-vision。谷歌、OpenAI等科技巨头纷纷加码，多模态AI加速突破。多模态大模型推动AI迈向“通感”时代，算力需求将大幅提升随着人工智能感知、交互和生成能力的快速发展，多模态大模型正推动人工智能迈进“通感”时代，应用场景和生态也将进一步丰富。语音和图像数据大小显著高于文本，多模态大模型训练和推理的算力需求将大幅提升。根据SemiAnalysis表示，谷歌下一代多模态大模型Gemini已开启训练，算力达到1e26 FLOPS，是训练GPT-4算力的5倍。孟晚舟在2023华为全球分析师大会上表示，预计到2030年通用计算能力将增长10倍，AI计算能力将增长500倍，AI算力有望持续高景气。投资建议龙头推荐金山办公、科大讯飞、同花顺、三六零等。应用领域，推荐鼎捷软件、彩讯股份、焦点科技、拓尔思、致远互联等，受益标的包括泛微网络、普元信息、汉仪股份、新致软件、福昕软件、万兴科技、汉得信息等。底层算力领域，服务器端推荐中科曙光、浪潮信息，受益标的包括紫光股份等；GPU端，推荐海光信息，受益标的包括寒武纪、景嘉微等；华为昇腾生态，推荐卓易信息、神州数码等，受益标的包括四川长虹、烽火通信、拓维信息、同方股份等。AI监管领域，受益标的包括美亚柏科、永信至诚、人民网等。风险提示：AI落地不及预期；市场竞争加剧风险；公司研发不及预期风险。

点击免费查看完整报告

行业点评报告：ChatGPT推出语音和图像功能，多模态AI加速突破

你可能感兴趣

人工智能行业点评：SAM模型带来图像分割的GPT~3时刻，机器视觉和多模态AI迎突破

【中泰电子|大华股份】ChatGPT升级语音/图像新功能，垂类龙头有望受益多模态

计算机行业研究：Manus正式推出图像生成功能，建议关注AI及信创产业链

全球科技行业周报：Photoshop测试版推出AI图像生成功能，500比特量子计算芯片面世

互联网传媒行业周报（20240506-20240512）：周观点：OpenAI推出AI生成图像检测工具，月之暗面上线Kimi+功能

行业点评报告：Pika、Gemini多模态AI不断突破，AI应用或加速

AIGC 新质生产力，能够实现Al生成文本语音、图像、视频等多模态内容，智能化产品已广泛应用于消费电子、新能源等多个行业，这家公司实现虚拟制作系统等全系列自主研发产品布局

【公告全知道】多模态大模型+AI视频+信创+云计算！公司多模态大模型、AIGC图像大模型和行业大模型已初具雏形

【财联社早知道】谷歌Gemini AI新计划曝光，多模态不断突破或推动AI应用打开商业化空间，这家公司的多媒体大模型涵盖语言、音频、图像、视频等多模态能力

计算机行业点评报告：ChatGPT与苹果系统深度集成，实时视频和屏幕共享加入高级语音模式