一、AI:海外科技巨头加大投资力度 1.1海外科技巨头加大AI投资力度 在过去两周内,谷歌、微软、Meta、亚马逊和苹果等科技巨头相继发布了季度财报。 这些报告不仅揭示了各公司的增长态势,同时也凸显出AI已成为各大企业投资的焦点。据高盛预测,到2030年,全球在生成式AI上的投资额将超过1万亿美元。 图1:亚马逊、微软、谷歌、Meta第二季度的资本支出总额比去年同期增加近60% 谷歌在第二季度的资本支出为130亿美元,主要用于数据中心投资。据Business Insider报道,该公司还另外花费了6000万美元在Reddit上的用户帖子上训练其AI模型。2024年7月,该公司的人工智能部门DeepMind推出了新模型,这些模型成功解决了2024年国际数学奥林匹克竞赛中的部分问题。尽管具体的AI投资数额未公开,但公司高层对于AI战略带来的长期回报充满信心。谷歌正积极将生成式AI融入其核心搜索业务,以应对来自竞争对手的压力。Alphabet的CFO Ruth Porat表示,公司第二季度报告的资本支出为130亿美元,主要是由于对公司技术基础设施的投资,其中最大的部分是服务器,其次是数据中心。她还提到,预计全年每个季度的资本支出都将保持在第一季度的120亿美元或以上。 图2:2024年谷歌所投AI相关公司 微软在2024财年第四季度财报中提到,其190亿美元的资本支出中大部分与人工智能相关。其中一半用于建设数据中心等基础设施,另一半则用于购买CPU和GPU,旨在提升云计算和AI处理能力。微软不仅是OpenAI的最大投资者之一,还与Inflection AI签署了价值6.5亿美元的软件许可协议,并以1630万美元的投资金额收购了Mistral AI的部分股权。微软CFO Amy Hood表示,为了满足对公司人工智能和云产品日益增长的需求,微软将扩大基础设施投资,预计2025财年的资本支出将高于2024财年。 图3:2024年微软所投AI相关公司 Meta在第二季度财报中,将2024年的资本支出预期从350-400亿美元上调至370-400亿美元,并预计2025年的资本支出将进一步增加,以支持AI研究和发展。Meta CEO Mark Zuckerberg计划购买超过35万个Nvidia GPU,以支持其AI研究和产品开发工作。根据财报电话会议,Meta似乎主要寻求建立计算集群和数据中心,这些可能是未来人工智能所需的基础。7月23日,Meta正式发布了其最新的开源模型Llama 3.1,包含8B、70B和405B三个尺寸,最大上下文提升到了128k。此外,Zuckerberg还暗示了该公司为广告商开发专门AI工具的计划。 亚马逊在第一季度财报中提到,计划向开发生成式AI应用程序的初创公司投资超过2.3亿美元,其中8000万美元将用于资助该公司的AWS生成式AI加速器计划。2024年3月,彭博社报道称,这家电子商务巨头计划在未来15年内花费约1500亿美元建设数据中心。亚马逊正通过提供计算信用额度,推销其AWS云服务和基础设施作为开发者构建生成式AI产品的最佳场所。这可以确保公司在AI领域的竞争地位,减少开发者转向其他云服务提供商如微软Azure的可能性。值得注意的是,亚马逊创始人Jeff Bezos已经投资了Perplexity AI,该公司的最新估值超过了5.2亿美元。此外,亚马逊正在推进其自家的AI聊天机器人Metis,以与OpenAI的ChatGPT展开竞争。据路透社报道,亚马逊也在考虑制造AI芯片,这有助于公司减少从英伟达购买芯片以支持其云业务的成本。 图4:2024年亚马逊、Meta所投AI相关公司 苹果虽然没有透露具体的AI投资数额,但其研发支出在2024年第三季度超过了800万美元。苹果CEO Tim Cook表示,公司将持续加大对AI技术的投资,尤其是在Apple Intelligence项目上,该项目将强大的、隐私保护的生成式AI模型整合进iPhone、iPad和Mac中。苹果还与OpenAI合作,将ChatGPT集成到其产品中。 1.2 Altman的草莓暗示:GPT-5或将揭晓 2024年8月7日,OpenAI的首席执行官Sam Altman发布了一条社交媒体帖子,配以“我爱花园里的夏天”的文字,并附上了一张五颗草莓的照片。紧接着,OpenAI研究员Trevor Creech发文——今晚在OpenAI吃晚餐,而盘子中间,恰好放着一颗草莓。 这些看似简单的帖子迅速在网络上引起了热议,许多人认为这是对 “Strawberry”项目的暗示,该项目被认为是期待已久的GPT-5模型;有人认为这标志着GPT-5模型的开发进展顺利,甚至可能在未来4到6周内发布,因为草莓从开花到成熟通常需要4到6周的时间。 图5:Sam Altman发文暗示 图6:Trevor Creech发文暗示 与此同时,一位名为Jimmy Apples的用户在LYSMS竞技场上发现了一个名为“anonymous-chatbot”的匿名聊天机器人。这款机器人声称基于GPT-4架构,并经过特殊调整以优化对话性能。经过测试,该聊天机器人在数学能力上表现出显著提升,并成功解决了多个复杂的逻辑推理题目。这些迹象使得许多人将“anonymous-chatbot”与GPT-5或Q*项目联系起来。 “Strawberry”项目首次曝光是在今年7月,路透社报道指出OpenAI正在全力研究这个新项目,它被认为与Q*项目有关,后者旨在实现通用人工智能(AGI)的重大突破。尽管OpenAI官方并未透露更多细节,但根据其发言人的说法,公司致力于开发能像人类一样理解和看待世界的AI模型,并且这些模型的推理能力将会随着时间的推移而持续提高。 值得注意的是,自从GPT-4发布以来已经过去了大约一年半的时间,期间 OpenAI推出了GPT-4o及其mini版本,但面临来自Anthropic、Meta等竞争对手日益激烈的竞争压力。此外,OpenAI近期经历了一系列高层人事变动,包括总裁Greg Brockman的休假以及联合创始人John Schulman的离职,这些变动引发了外界对公司发展方向的担忧。 尽管存在诸多不确定性,但OpenAI依然被视为引领AI领域发展的关键力量。 随着GPT-5的传言愈演愈烈,业界都在密切关注OpenAI的下一步动作,期待着可能改变AI未来的突破性进展。 图7:在LYSMS竞技场上发现的anonymous-chatbot匿名聊天机器人 1.3中文多模态大模型SuperCLUE-V基准8月榜单发布 2024年8月2日,中文多模态大模型SuperCLUE-V基准8月榜单发布。本次测评涵盖国内外最具代表性的12个多模态理解大模型。 测评结果显示,GPT-4o以74.36分的成绩位居榜首,在基础多模态认知能力和应用能力方面均表现出色,具有明显的技术和应用优势。国内的大模型如hunyuan-vision和InternVL2-40B也取得了70+分的好成绩,紧随GPT-4o之后,特别是在多模态应用方面展现出了强大的竞争力,超越了Claude3.5-Sonnet和Gemini-1.5-Pro等其他模型。然而,在基础能力方面,国内的大模型相较于海外模型仍有不足之处,尤其是在细粒度视觉认知任务上的表现,与最佳国际模型相比存在约5分的差距,因此需要继续优化和提升多模态深度认知能力。 图8:SuperCLUE-V多模态理解测评基础总榜 1.4智谱上线AI视频生成产品“清影”,并开源CogVideoX 2B模型 2024年7月26日,智谱AI旗下“智谱清言”App正式上线了AI视频生成功能“清影”,支持文生视频、图生视频。清影基于智谱自研的视频生成大模型CogVideoX,通过技术优化,将6秒视频的生成时间缩短到了理论上的30秒。 视频参数方面,清影目前支持生成6秒时长的视频,分辨率为1440x960。智谱早在2021年就开始在多模态方向进行布局,2021年研发了文生图模型CogView,CogView的论文发布时间甚至早于DALL-E,此后又相继发布了CogView2,CogVideo、CogView3等成果。 图9:智谱上线AI视频生成产品“清影” 8月6日,智谱AI宣布将与“清影”同源的视频生成模型——CogVideoX开源。 CogVideoX开源模型包含多个不同尺寸大小的模型,目前智谱将开源 CogVideoX-2B,它在FP-16精度下的推理仅需18GB显存,微调则只需要40GB显存,这意味着单张4090显卡即可进行推理,而单张A6000显卡即可完成微调。 CogVideoX-2B的提示词上限为226个token,视频长度为6秒,帧率为8帧/秒,视频分辨率为720*480。在技术层面,智谱AI发布的论文揭示了CogVideoX开源模型三项技术亮点:1)高效三维变分自编码器(3D VAE):用于大幅度压缩视频数据量,降低了训练成本和复杂度。2)专家Transformer架构:通过将视频和文本嵌入结合,并经过一系列处理后重构视频,实现高质量的视频生成。 3)数据处理与优化:开发负面标签系统筛选低质量视频;采用计算光流和美学评分机制动态调整阈值;并通过多阶段流程生成更丰富的视频字幕,以提升模型训练效果。这些技术进步不仅推动了AI视频生成领域的边界,也为更广泛的应用场景提供了技术支持。 图10:智谱开源CogVideoX 2B模型 1.5生数科技发布视频大模型Vidu,4s视频仅需30s时间生成 7月30日,生数科技联合清华大学发布的视频大模型Vidu正式上线,面向全球用户开放。这款视频大模型开放文生视频、图生视频两大核心功能,提供4秒和8秒两种时长选择,分辨率最高达1080P,生成一段4秒的视频片段经实测仅需30秒。Vidu于2024年4月在2024中关村论坛年会上首次发布,具有“长时长、高一致性、高动态性”的特点。Vidu底层基于完全自研的U-ViT架构,该架构由团队在2022年9月提出,早于Sora采用的DiT架构,是全球首个Diffusion和Transformer融合的架构。 生数科技成立于2023年3月,核心成员来自清华大学人工智能研究院,致力于自主研发世界领先的可控多模态通用大模型。自2023年成立以来,团队已获得蚂蚁集团、启明创投、BV百度风投、字节系锦秋基金等多家知名产业机构的认可,完成数亿元融资。据悉,生数科技是目前国内在多模态大模型赛道估值最高的创业团队。2024年1月,生数科技旗下视觉创意设计平台PixWeaver上线了短视频生成功能,支持4秒高美学性的短视频内容。2月份Sora推出后,生数科技内部成立攻坚小组,加快了原本视频方向的研发进度,不到一个月的时间,内部就实现了8秒的视频生成,紧接着4月份就突破了16秒生成,6月被拉高至32秒,生成质量与时长全方面取得突破。 图11:视频大模型Vidu正式上线 1.6 Figure 02:实现通用智能与全面对话的新一代人形机器人 8月6日,硅谷著名具身智能创业公司Figure正式发布了其新一代人形机器人——Figure 02。这款机器人不仅拥有科幻般的外观,还具备了强大的通用智能,能够在真实环境中与人类进行实时对话,并自动学习复杂的任务操作,如装配零件。目前,Figure 02已经在宝马位于Spartanburg的工厂中实习工作,展现了其在工业自动化领域的巨大潜力。 图12:Figure正式发布新一代人形机器人Figure 02 Figure 02在多个方面进行了全面升级: 实时语音对话:通过内置麦克风和扬声器连接自定义AI模型,能够与人类进行对话; 摄像头:由6个内置RGB摄像头驱动的AI视觉系统; 手部:第四代手部具有16个自由度和等同于人类的力量; 内置VLM:使机器人摄像头能够进行快速的常识性视觉推理; 电池:机器人躯干内的2.25千瓦时定制电池组提供50%以上的能量; CPU/GPU: