您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[财通证券]:计算机行业专题:国庆假期,科技行业都发生了什么? - 发现报告
当前位置:首页/行业研究/报告详情/

计算机行业专题:国庆假期,科技行业都发生了什么?

信息技术2024-10-07杨烨、罗云扬财通证券芥***
AI智能总结
查看更多
计算机行业专题:国庆假期,科技行业都发生了什么?

OpenAI发布的多项API大幅简化了AI开发流程并降低成本。实时语音交互API整合了STT、LLM和TTS等多个模型,省去繁琐步骤,让中小企业也能轻松开发语音助手。视觉微调API利用GPT4o的Zero-shot能力,通过少量数据即可大幅提升任务成功率,如Grab和Automat等企业已显著提高了识别准确率。提示词缓存优化功能通过减少重复内容,降低了50%的成本和80%的时延。模型蒸馏服务则提供了基于GPT的低成本、低时延定制模型解决方案。我们认为,OpenAI GPT系列目前仍然是全球范围内“最智能”的大模型,其强大的Zero-shot能力使其能适应多样化场景,结合广大开发者落地定制有望加快AI应用在各个领域落地。 Canvas变革写作/编程范式。相比于原本的对话式界面,Canvas最大的升级是除了对话界面外,还有一个单独的输出结果界面,并可对输出结果特定部分进行修改、评估等,而不用有变动就需要全部重新生成。Canvas的写作功能包括即时提供编辑建议、调整文本长度、修改阅读难度、进行最后润色并添加表情符号,使文本更生动。编程功能则提供代码审查、插入日志、添加注释、修复错误,并支持将代码移植到多种编程语言,如JavaScript、Python等,帮助提升代码质量和可读性。 MetaMovieGen:持续向OpenAI产品发起挑战。Movie Gen Video是一个300亿参数的模型,能够根据文本提示生成高质量的高清图像和视频,支持最长16秒的时长,训练集包含1亿个视频和10亿张图像,具备推理物体运动、主体与物体互动等能力。Movie Gen Audio则是一个130亿参数的模型,能够生成与视频同步的48kHz高质量音效和音乐,训练集约为100万小时音频,支持处理不同长度的音频生成,并能生成匹配视觉场景的环境音效以及情绪支持的非叙事性音乐。 300亿参数的MovieGenVideo模型训练使用超过6000张H100。为了使得模型能够更好地理解真实物理、几何等关系,Meta采用了分步训练方式,首先进行文本到图像(T2I)任务的训练,然后再进行文本到图像(T2I)和文本到视频(T2V)联合训练;同时,在第二阶段T2V训练时,首先在256px分辨率下训练,再将分辨率提升至768px。值得注意的是,训练用到GPU最多达6144张H100,而这仅仅是一个300亿的文生视频模型,可生成视频最长时间仅为16秒,后续文生视频算力投入空间广阔。 投资建议:见正文 风险提示:技术迭代不及预期的风险、商业化落地不及预期的风险、政策支持不及预期风险、全球宏观经济风险。 1OpenAI接连重磅发布,Canvas变革写作/编程范式 OpenAI发布全新API功能,多模态+降本进一步繁荣自身开发者生态。此次OpenAI开发者大会发布了实时语音交互API、视觉微调API、提示词API、模型蒸馏四大新功能。我们认为,OpenAI GPT系列目前仍然是全球范围内“最智能”的大模型,其强大的Zero-shot能力使其能适应多样化场景,结合广大开发者落地定制有望加快AI应用在各个领域落地。 图1.OpenAI dev day 2024发布的4大新功能 实时语音交互API:省去中介步骤,语音助手普适化。传统的语音助手开发一般至少需要用到3个模型:STT(语音转文字模型)、LLM、TTS(文字转语音模型),中间需要对每一步的结果进行处理、审核、优化等,流程过于繁琐,故此一般仅有偏大型企业才有资源开发。而Open此次发布的Real-time API由多模态模型GPT4o支持,对开发者而言省去了大量中间转换步骤,语音助手有望向中小微、个体类企业/商户甚至C端交互场景渗透,进而迸发出更丰富的应用创新以及庞大的算力需求。 图2.Voice agent with STT, LLM, TTS 视觉微调API:小量数据办大事。基于GPT4o强大的Zero-shot能力,客户只需要少量的特定场景图像数据,便可极大程度提升相关场景AI的任务成功率、识别准确率等。如Grab仅用100张图便将车道计数的准确性提高20%,并且将速度限制标志的定位精度提高13%;Automat使用200张未结构化的保险文档的图片,将信息提取任务的 F1 得分提升了7%等。 图3.GPT4o经过少量图片微调后的识别任务示例 提示词缓存优化:若重复,输入token降本50%,时延降低80%。model prompts通常包含重复的内容,比如系统提示和常见指令,OpenAI现在的API会缓存提示词,并自动识别重复内容(无需更改代码,无额外收费,即可生效)。对于长提示,这可以减少高达80%的延迟和50%的成本。 图4.提示词缓存优化后的输入token定价以及何谓Cached示意 模型蒸馏服务:以GPT为基础定制专属+低成本+低时延小模型。该服务制定了一个便捷的蒸馏流程:1.首先将特定场景任务中“大模型”(如o1-preview或GPT4o等)的高质量输出存储;2.用OpenAI的evals建立基准;3.用存储到的高质量输出进行蒸馏;4.评估蒸馏模型,重复上述步骤直到模型好用。 图5.简单易用的蒸馏-评估-微调操作界面 智能写作/代码助手——Canvas。相比于原本的对话式界面,最大的升级是Canvas除了对话界面外,还有一个单独的输出结果界面,并可对输出结果特定部分进行修改、评估等,而不用有变动就需要全部重新生成。 图6.GPT 4o with Canvas Canvas写作主要功能:Suggest edits:用户在编辑文本时,ChatGPT能够即时给出建议和反馈,帮助用户改进文本内容。Adjust the length:可一键调整文档的长度,使其变得更短或更长。Change reading level:可以调整文本的阅读难度,从幼儿园级别到研究生级别,同样的内容,不同程度表述。Add final polish:对文本进行最后的润色,检查语法、清晰度和一致性。这有助于确保文本的质量。Add emojis:这句话说明可以添加相关的emoji表情符号,以增强文本的强调和色彩。这可以使文本更加生动有趣。 图7.Writingwith Canvas Canvas编程主要功能:Review code: ChatGPT会在代码旁边提供建议,以帮助提高代码质量。Add logs:插入打印语句来帮助调试和理解代码。Add comments:向代码中添加注释,使其更易于理解。Fix bugs:检测并重写有问题的代码以解决错误。 Port to a language:将你的代码翻译成JavaScript、TypeScript、Python、Java、C++或PHP。 图8.Coding with Canvas 2MeteMovie Gen,逐步“理解”真实物理世界 本次Meta共发布了两个模型: Movie Gen Video:300亿参数的基础模型,能够根据文本提示自然地生成种长宽比、不同分辨率、高质量的高清图像和视频,时长最长可达16秒。训练集为1亿个视频和10亿张图像,预训练的模型能够推理物体的运动、主体与物体的互动、几何结构、摄像机运动以及物理规律,并且能够学习到各种概念的合理运动。 图9.Movie Gen Video模型结构 Movie GenAudio:130亿参数的基础模型,能够遵循文本提示生成与视频输入同步的48kHz高质量的电影级音效和音乐。该模型能够自然地处理不同长度的音频生成,并通过音频扩展技术为长达几分钟的视频生成连贯的长时音频。预训练集为大约100万小时的音频,该模型可以生成与视觉场景匹配的环境音效,即使音源不可见,也能生成与视觉动作同步的环境音效。此外,它还能生成支持情绪的非叙事性音乐,与视觉场景中的动作保持一致,并能够专业地融合音效和背景音乐。 图10.Movie GenAudio模型图解 300亿参数文生视频模型训练使用超过6000张H100。为了使得模型能够更好地理解真实物理、几何等关系,Meta采用了分步训练方式,首先进行文本到图像(T2I)任务的训练,然后再进行文本到图像(T2I)和文本到视频(T2V)联合训练;同时,在第二阶段T2V训练时,首先在256px分辨率下训练,再将分辨率提升至768px。值得注意的是,训练用到GPU最多达6144张H100,而这仅仅是一个300亿的文生视频模型,可生成视频最长时间仅为16秒。 图11.Movie GenVideo模型训练详细情况 多项创新技术助力Movie Gen Video成为目前最先进文生视频模型。此次Movie Gen模型中,Meta沿用了llama3的部分设计思路与结构,同时引入“流匹配”、“因子化可学习编码”、“时间平铺”等方法提升模型效果或降低成本。最终微调得到的Movie Gen Video模型,与当前最先进的模型相比,大幅超越Dream Machine和Gen-3,小幅超越了Sora和Kling 1.5。 图12.Movie GenVideo模型与其他同类模型对比 3鸿蒙NEXT即将发布,10月科技大事件不断 HarmonyOS NEXT将在10月8日正式开启公测。首批将适配Mate 60/X5系列手机、MatePad Pro 13.2英寸系列平板,也就是最早开启Beta招募的机型。 HarmonyOS NEXT也被称为纯血鸿蒙,全栈自研的系统底座,放弃了传统的AOSP代码,仅支持鸿蒙内核及鸿蒙系统的应用,是一个源自中国、自主可控的操作系统。主流应用基本都已完成了鸿蒙原生应用的开发,包括百度、哔哩哔哩、钉钉、东方财富、京东集团、金山办公、快手、美团、支付宝、深开鸿、腾讯、网易等。 纯血鸿蒙的发布标志着我国在核心底层技术自主可控程度已达高水平。 图13.鸿蒙将于10月8日公测 特斯拉Rotaxi即将发布。根据财联社报道,特斯拉官方宣布,计划于北京时间10月11日,在洛杉矶伯班克华纳兄弟影城举办一场活动,正式展示其Robotaxi无人驾驶出租车。马斯克高调宣称,“这将载入史册”。 图14.10月11日特斯拉发布Robotaxi AMD10月10日举办Advancing AI。AMD宣布将于2024年10月10日举办“Advancing AI 2024”,该活动将通过线下和线上直播形式展示第五代AMD EPYC服务器处理器以及关于网络和AI PC的最新进展,同时还将重点介绍该公司不断扩大的AI解决方案生态系统。 图15.AMDEPYC在AI数据中心性能对比intel 英伟达新一代显卡50系列或渐行渐近,其中5090可能拥有32G的显存空间,显存带宽亦有望大幅提升。除了游戏用途,AI相关计算亦有望全面满足。 图16.英伟达RTX50系列RumoredSpecs 4投资建议 生成式AI的高速发展,将持续推升AI底层算力需求,建议关注AI基座产业链的公司,如NVIDIA、台积电、AMD、博通、ORACLE、MICROSOFT、AMAZON、ALPHABET、海光信息、协创数据、中科曙光、曙光数创、寒武纪、英维克、神州数码、紫光股份、VERTIV、美光科技等。建议关注AI应用端:金山办公、万兴科技等。 坚定看多计算机板块,建议重点关注券商IT板块,如同花顺、东方财富、财富趋势、指南针、顶点软件、恒生电子等。财政IT双雄,博思软件和中科江南。 建议关注支付IT,拉卡拉、新大陆、新国都和连连数字。建议关注AIoT双雄,海康威视和大华股份。 5风险提示 技术迭代不及预期的风险:若AI技术迭代不及预期,NLP模型优化受限,则相关产业发展进度会受到影响。 商业化落地不及预期的风险:ChatGPT盈利模式尚处于探索阶段,后续商业化落地进展有待观察。 政策支持不及预期风险:新行业新技术的推广需要政策支持,存在政策支持不及预期风险。 全球宏观经济风险:垂直领域公司与下游经济情况相关,存在全球宏观经济风险。