您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[开源证券]:计算机行业深度报告:AI编程,未来已来 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机行业深度报告:AI编程,未来已来

信息技术2025-02-16陈宝健、李海强开源证券c***
计算机行业深度报告:AI编程,未来已来

大模型军备竞赛,编程能力跃进,AI编程未来已来 大模型军备竞赛,编程能力跃进,为AI编码应用繁荣夯实基础底座。Claude 3.5 sonnet (new)在HumanEval代码生成基准测试得分高居93.7%;OpenAI12月发布的推理模型o3 Codeforces得分为2727,编程能力超过99%的人类程序员。 国产大模型编程能力快速补齐,DeepSeek-V3、豆包1.5-pro模型在多个公开评测表现优异,比肩OpenAI、Claude系前沿模型,有望孕育国产AI编程应用。 AI编程前景广阔,Spherical Insights预计2032年AI编码工具市场超295亿美元。 微软、亚马逊、谷歌、Salesforce等多家科技巨头广泛利用AI编程技术降本增效。 海外AI编程杀手级应用涌现 海外已涌现多款AI编程应用跑通商业闭环,获得明星资本和科技巨头客户认可,充分验证AI编程市场潜力,包括Copilot、Agent2种形态。Copilot代表如GitHub Copilot、Cursor等,能够实现代码补齐优化等功能,收费数十美元/月,Agent以CognitionDevin为代表,可独立完成代码开发等复杂任务,收费500美元/月。 Information报道OpenAI也在开发一款编程Agent,相当于6级工程师的能力。 GitHub Copilot:实现亿级美元ARR,商业化进展积极。根据微软业绩会,2024年4月,GitHub Copilot已付费用户增长至180万,增速显著。2024年7月,GitHub Copilot收入超过GitHub 2018年被微软收购时的水平(2-3亿美元)。 Cursor:产品力强劲,获明星资本加持。根据Sacra估计,2024年11月Cursor的ARR达到6500万美元,同比增长6400%,ARR高增长凸显卓越产品力。2025年1月完成超1亿美金B轮融资,此前曾获OpenAI投资。 Cognition:牵手微软,编程Agent Devin开放商业化。Devin [production]评测表现优于GPT4o和o1,2024年5月宣布与微软合作,强强联合推广编程Agent。 国产AI编程应用初显峥嵘 字节跳动:MarsCode和Trae齐发,剑指AI编程蓝海。2024年6月,字节跳动发布基于豆包大模型打造的智能开发工具-豆包MarsCode,在国内免费开放; 2025年1月,豆包全新上线AI编程功能,并推出面向海外的AI编程工具Trae,支持AI问答、代码自动补全、基于Agent的AI编程等功能。 卓易信息:艾普阳低代码IDE新产品前景光明。子公司艾普阳PowerBuilder产品基本盘稳固,低代码IDE新品SnapDevelop前景光明,有望成为公司新增长点。 科大讯飞:星火4.0 Turbo全新升级,代码智能体iFIyCode持续选代。2025年1月升级的讯飞星火4.0 Turbo全面对标GPT-4o。模型升级驱动代码智能体iFIyCode持续选代,代码采纳率和单元测试行覆盖率快速提升,成长前景光明。 普元信息:国内低代码领军,引领软件研发智能体建设。公司为国内低代码领域市场领军,连续中标金融、政务、制造领域,前沿引领编程智能体开发。 投资建议 我们看好AI编程市场潜力和国内领军公司成长前景,推荐卓易信息、科大讯飞、普元信息等,受益标的包括金现代等。 风险提示:产业落地不及预期;市场竞争加剧风险;公司研发不及预期风险等。 1、大模型军备竞赛,编程能力跃进,AI编程未来已来 大模型军备竞赛,编程能力跃进,有望孕育AI编码杀手级应用。2023年以来国内外大模型持续迭代,其中编程能力提升尤为显著,代码正确性和编程速度等方面快速改善。我们认为大模型编程能力快速提升为AI编程应用生态繁荣夯实基础底座。 Claude 3.5 sonnet (new)代码生成测试得分领先。以Claude系列模型为例,2024年10月发布的Claude 3.5 sonnet (new)版本编程能力超预期,HumanEval代码生成基准测试得分高居93.7%,较2023年的Claude1.3得分56%、Claude2得分71.2%显著提升。 图1:Claude 3.5 sonnet (new)代码生成测试得分领先 OpenAI发布下一代推理模型o3,推理能力提升。12月20日,OpenAI发布下一代推理模型o3和o3 mini,o3推理能力较此前的o1模型进一步提升,其中编程能力方面,o3模型Codeforces(编程测评系统)得分为2727,超过99%的人类程序员。 图2:OpenAI宣布推理模型o3Codeforces表现超过99%的人类程序员 METR研究显示在2个小时内的编程任务中,Claude 3.5 Sonnet和o1-preview表现均优于人类专家。根据METR (Model Evaluation and Threat Research)研究结果,AI编程速度能以超越人类10倍速度生成并测试各种方案。给定2个小时,Claude 3.5 Sonnet和o1-preview在7项具有挑战性研究工程中,击败了50多名人类专家。在一个需要编写自定义内核以优化前缀和运算的任务中,o1-preview不仅完成了任务,还创造了惊人的成绩:将运行时间压缩到0.64毫秒,甚至超越了最优秀的人类专家解决方案(0.67毫秒)。 图3:METR研究显示在2个小时内的编程任务中,Claude 3.5 Sonnet和o1-preview表现均优于人类专家 Github调研显示AI在提高代码质量、使用新编程语言、生成测试案例等方面效果显著。根据Github2024年发布的一项针对全球软件开发者调查结果,目前已经有97%的受访开发者表示在工作内外中使用过AI编程类工具,他们认为AI在提高代码质量、使用新的编程语言并理解现有代码库以及生成测试用例方面效果显著。 图4:Github调研显示AI在提高代码质量、使用新编程语言、生成测试案例等方面效果显著 2024年Github上的公共生成式AI项目数量快速增长。根据Github 2024年Octoverse报告,GitHub上的开发人员创建了7万多个新的公共和开源生成式AI项目,对GitHub上所有生成式AI项目的总贡献增加了近60%。 图5:2024年Github上的公共生成式AI项目数量快速增长 AI编程未来已来,AI编程前景广阔。SphericalInsights预计2032年AI编码工具市场规模超295亿美元。科技巨头利用AI编程技术降本增效。亚马逊将生成式AI开发助手“Amazon Q”集成到内部系统,节省了约4500个开发人员一年的工作量,节约2.6亿美元的运营资金。谷歌CEO在2024Q3财报电话会表示谷歌超25%新代码由AI生成,然后由工程师审查通过。Salesforce利用Agentforce和其他AI技术将团队生产力提高30%以上。 国产大模型代码能力快速补齐,DeepSeek-V3代码场景测评表现比肩GPT-4o及Claude-3.5-Sonnet。12月26日,全新系列模型DeepSeek-V3首个版本上线并同步开源。根据官方论文,DeepSeek-V3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。 在算法类代码场景(Codeforces),DeepSeek-V3测评表现领先于市面上已有的全部非o1类模型 , 并在工程类代码场景 (SWE-Bench Verified) 逼近Claude-3.5-Sonnet-1022。 图6:DeepSeek-V3代码场景测评表现比肩GPT-4o及Claude-3.5-Sonnet 豆包通用模型pro代码能力提升显著。12月18日2024年冬季火山引擎FORCE原动力大会上,火山引擎总裁谭待宣布豆包通用模型pro完成新版本迭代,其中代码能力提升速度最为显著。 具体来看,综合任务处理能力较5月份提升32%,在推理上提升13%,在指令遵循上提升9%,在代码上提升58%,在数学上提升43%,在专业知识领域能力提升54%。 图7:豆包通用模型pro代码能力提升显著 豆包全新基础模型Doubao-1.5-pro模型能力全面升级。1月22日,豆包全新基础模型Doubao-1.5-pro正式发布,Code等方面的能力在多个公开评测基准上表现优异。 图8:豆包全新基础模型Doubao-1.5-pro模型能力全面升级 2、海外AI编程杀手级应用涌现 2.1、GitHub Copilot:实现亿级美元ARR,商业化进展积极 GitHub与OpenAI合作推出GitHubCopilot,2021年6月,GitHub宣布与OpenAI合作开发的AI编程工具GitHub Copilot,在Visual Studio Code开发环境中进行技术预览,专业开发人员可以使用GPT-3模型更快速地编写代码。目前GitHub Copilot支持使用Claude 3.5 Sonnet和GPT-4o模型。 图9:GitHub与OpenAI合作推出GitHub Copilot GitHub Copilot生成的代码多数正确,尤其是在Java和C++语言。根据《GitHub Copilot: the perfect Code compLeeter?》论文,作者基于LeetCode问题集评估GitHub Copilot生成的代码质量,具体评估了Copilot在4种编程语言(Java、C++、Python3和Rust),代码生成阶段的可靠性、生成代码的正确性以及其对编程语言、问题难度和问题主题的依赖性,并评估了代码的时间和内存效率,并将其与平均人类结果进行比较。 研究发现Copilot成功解决了大多数问题,且在Java和C++中生成代码的成功率要高于Python3和Rust。根据LeetCode的统计信息,GitHub Copilot生成的代码平均水平比人类更有效率。 图10:GitHub Copilot生成的代码多数正确,尤其是在Java和C++语言 GitHub Copilot采用订阅制收费模式。2022年6月,GitHub正式宣布GitHub Copilot推出“技术预览版”,并基于订阅服务提供给个人开发者。目前针对Pro/Business/Enterprise用户,分别收费10/19/39美元/月。 图11:GitHub Copilot采用订阅制收费模式 GitHub Copilot付费用户规模快速增长,商业化进展积极。2022年7月,GitHub Copilot发布仅一月即实现超过40万订阅用户;截至2024年4月,GitHub Copilot付费用户增长至180万,增速显著。 2023年10月,GitHub CEO Thomas Dohmke宣布GitHub CopilotARR突破1亿美元,并且Copilot项目已经实现盈利。根据2024年7月微软业绩电话会,GitHub Copilot收入已经超过GitHub2018年被微软收购时的水平(2-3亿美元)。我们认为GitHub Copilot作为头部AI编程应用商业化进展积极,彰显AI编程成长前景。 图12:GitHub Copilot付费用户规模快速增长 2.2、Cursor:产品力强劲,获明星资本加持 Cursor产品表现惊艳,吸引多家知名客户。Cursor具备多行编辑、跨文件上下文补全、下一个动作预测等功能。开发者只需不断按下Tab键,就可自动完成整个文件的代码修改,且Cursor的处理结果更准确,速度更快。 凭借流畅的产品体验,2024年8月,特斯拉前AI总监Andrej Karpathy在X上连发数条推文称赞Cursor。此外,Cursor还吸引了O