行业研究公司研究宏观策略财报招股书会议纪要对等关税低空经济 DeepSeek AIGC 智能驾驶大模型

代码生成Copilot-大语言模型在真实开发场景下的实践

信息技术2024-11-03吴沁芸-林***

AI智能总结

代码生成 Copilot 回顾 & 探索

团队背景

GitHub Copilot 孵化于 GitHubNext团队，该团队由程序分析和软件工程研究员组成，专注于探索未来的软件研发方式。在2020年6月，基于GPT-3的性能突破，GitHub和OpenAI合作训练了Codex模型，并持续迭代其私有模型，以提升代码补全场景下的性能。

产品形态

GitHub Copilot采用Ghost Text展示模型提示，通过Tab键进行采纳，继续输入则取消推荐。这种交互方式充分发挥了模型在多行补全上的优势，推荐代码和已有代码融为一体，方便开发者快速基于上下文判断是否采纳。产品形态低延时，平均延迟约为500ms，适用于专业开发者。

低延时 & 提示工程

低延时：专业开发者的输入速度通常较快，过高的延迟会失去很多推荐机会。GitHub Copilot在大语言模型的推理速度和工程链路上进行了优化，确保在合理的时间内提供推荐。
提示工程：提示工程的目标是通过在prompt中加入文件路径、相似代码、浏览记录等信息，提升模型在代码补全方面的表现。

工业界代码补全评估体系

HumanEval评估的局限性：HumanEval不是一个理想的评测指标，因为题目不匹配真实项目的需求，且已有模型普遍存在数据泄漏问题，导致刷分现象严重。
构建自研评测体系的重要性：提出了RepoMasterEval评测体系，旨在构建更加全面和真实的评估标准。该体系涵盖了多种编程语言和领域，确保评测集具有较高的置信度。
题目构建：从活跃且不断更新的GitHub代码仓库中筛选高质量代码，确保每个题目都有足够的上下文信息和测试用例。
单测增强：通过变异测试（mutation testing）生成有缺陷的代码片段，确保评测集的置信度。

代码补全未来：编辑推荐

编辑推荐的概念：除了代码补全，软件工程师还需要编辑已存在的代码，包括新增、删除、替换等操作。当前的代码补全功能无法胜任这种任务。
数据构建和模型训练方法：数据构建依赖于Git仓库中的commit历史记录，通过构造启发式规则提取关联修改记录。模型训练基于代码大语言基座模型，能够理解diff格式数据，并修正过度编辑的行为。
落地场景：未来的代码补全将更加智能化，帮助开发者更高效地编辑现有代码，提高开发效率。

结论

GitHub Copilot通过优化交互设计和低延时技术，提升了代码补全的用户体验。同时，通过构建自研评测体系，确保了评估结果的真实性和可靠性。未来，代码补全将朝着更智能的方向发展，更好地满足开发者的实际需求。

代码生成Copilot - 大语言模型在真实开发场景下的实践吴沁芸 GOPS全球运维大会暨研运数智化技术峰会2024·上海站个人简介吴沁芸代码智能团队高级算法工程师负责面向开发者的代码编程助手中代码生成相关的算法研发及业务落地，在MSR、FSE等重要学术会议上发表过相关学术工作。代码生成Copilot回顾&探索⼯业界代码补全评估体系目录代码补全未来：编辑推荐 01 代码生成Copilot回顾&探索单击此产处品编形辑态标题03 单击此低处延编时辑标题05 06单击此提处示编工辑程标题 04单击此处交编互辑标题单击此处团编队辑标题01 GitHubCopilot成功因素 02单击此处模编型辑标题团队 GitHubCopilot孵化于GitHubNext团队，⼀个主要有程序分析和软件⼯程研究员组成的研究型团队，其⽬标是探索未来的软件研发⽅式，持续在关注通⽤代码⽣成领域模型 2020年6⽉GPT-3发布，GPT-3在性能上的突⾏进展让GitHubNext决定基于它构建⼀款代码智能产品，得益于微软与OpenAI的合作关系，GitHub和OpenAI开始合作训练基于GPT-3的代码⼤语⾔模型Codex，并持续迭代其私有模型，提升代码补全场景下的性能产品形态 GitHub在体验到GPT-3后⾸先想到的是做⼀个ChatBot产品，但是经过测试后发现，虽然GPT-3在某些题⽬上表现很惊艳，但是还是有很多时候给出毫⽆意义的答案，不符合这种产品形态对容错率的要求，会让开发者失去信任。基于模型的能⼒判断，代码补全是⼀种容错率更⾼，更有⽤户粘性的产品形态。交互放弃从传统IDE补全的下拉列表选择交互，选择了⽤GhostText进⾏展⽰，⽤Tab键进⾏采纳，继续输入则取消推荐。这种交互⽅式发挥了模型在多⾏补全上的优势，推荐代码和已有代码融为⼀体，⽅便开发者快速基于上下⽂判断是否采纳。低延时&提示工程 •低延时：专业开发者的输入速度通常较快，过⾼的延迟会失去很多推荐的机会或者迫使⽤户停顿等待。GitHubCopilot在⼤语⾔模型的推理速度和⼯程链路上进⾏了优化，做到500ms左右的平均延迟 •提⽰⼯程：如果基座模型决定了能⼒上限，那么提⽰⼯程所做的就是去逼近这个上限。通过研究开发者⽇常开发中会关注的上下⽂，在prompt中加入⽂件路径、相似代码、浏览记录等信息，让模型在代码补全⽅⾯的表现⼤幅提升字节跳动代码⽣成探索历程产品体验快速迭代 •组建算法、⼯程和产品⼀体的智能编程助⼿团队 •⾃研代码LLM评测集和⾃动评测系统功能扩展 •引⼊基于对话的编程助⼿ •引⼊多点代码编辑推荐功能预研 •2022年初代码智能团队开始探索LLM驱动的代码补全产品 •基于开源LLM模型构建MVP 内场用户增长 •构建数据链路和线上A/B测试体系 •逐渐切换到⼀系列⾃研代码⼤语⾔模型难点评估⼯业界代码补全评估体系创新代码补全未来：编辑推荐 02 ⼯业界代码补全评估体系 HumanEval不是⼀个合适的评测指标 •题⽬不匹配真实项⽬的代码补全场景 •已有模型普遍存在HumanEval数据泄漏的情况 •学术界/⼯业界刷分现象严重，分数⾼不代表实际表现更好构建⾃研评测体系的重要性 01.场景单一评测集仅提供语句级、函数级或类级生成能力的模型评估。这些场景通常仅涉及生成单个代码单元（如语句、函数或类）且独立进行 03.单测不充分 HumanEval以单测通过率为评价指标，主要依赖测试用例评估模型生成代码的正确性。然而，这些测试用例通常不足，即使在模型预测错误时，它们也可能通过。使得评测结果不置信挑战&难点 02.缺乏仓库级信息在RepoBench等仓库级评测集中，虽然从代码库中构建基准测试案例，但未充分利用代码库中的丰富上下文信息进行更好的模型预测。而这些信息已被流行的代码补全工具所利用 04.缺乏基准测试与真实生产环境相关性研究目前尚无研究探讨基准测试结果中模型表现与实际生产环境的相关性，使得基准测试的可用性和有效性尚不确定。 RepoMasterEval 仓库筛选题目构建单测增强 Wu,Qinyun,ChaoPeng,PengfeiGao,RuidaHu,HaoyuGan,BoJiang,JinheTangetal."RepoMasterEval:EvaluatingCodeCompletionviaReal-WorldRepositories."arXivpreprintarXiv:2408.03519(2024). 仓库筛选真实性活跃且不断更新的GitHub代码仓库作为基础数据源，仅包含2023年3月之后创建的仓库，尽量消除数据泄露风险。高质量每个代码仓库必须至少获得100颗星，确保其具备一定的社区认可度和知名度。置信仓库必须包含测试文件，并且经过手动核实，确保其通过所有测试题目构建运行环境配置覆盖率解析补全位置提取目标题目构建 Context提取知识点标注题目多样性 TypeScript Cpp LanguageFeatures2% SecurityandPrivacy3% DataManagementandAnalysis4% NaturalLanguageProcessing 5% DataStructuresandAlgorithms5% MultimediaProcessing2% PerformanceOptimization1% CommonTools26% Python MachineLearning7% Databases7% Front-end8% Go Server-side9% ProgrammingBasics20% 单测增强为了保证测试的充分性，我们对每个题目生成了变异测试（mutationtest），通过对题目中的代码片段进行不同的变形，检验是否需要补充单元测试。对于需要补充单测的题目，我们进行人工补充，以确保测试的充分性，并提升评测集的置信度。 •使用mutationtesting的方法，为代码片段生成有缺陷版本 •在这些缺陷版本上运行单测用例集 •对于单测用例集无法kill的缺陷版本，补充单测（GPT生成和人工标注） •重复2-3，直到全部缺陷版本都可以被kill为止评测流程 RepoMasterEvalDatasets 沙箱环境配置模型预测结果指标计算知识点统计运行结果单测执行 03 代码补全未来：编辑推荐代码补全/续写的局限性代码补全/续写解决的是编写全新代码的问题。但作为软件工程师，还有很大一部分时间我们所做的是编辑已存在的代码，这里面包括新增、删除、替换等操作，而当前的代码补全功能无法胜任这种任务。代码编辑推荐的概念开发者实现了一个log函数，并在do_something和do_something_else两个方法中调用代码编辑推荐的概念开发者为log函数增加了sourceMethod和level两个参数，用于打印日志触发时所在的方法及日志级别。但是此时，开发者还需要要进行一些列额外的修改！代码编辑推荐的概念为何不让AI帮你完成这⾥的操作？开发者还需要在log函数中修改print语句打印新增的参数，并在log函数的调用方中传入额外的参数数据构建和模型训练方法数据构建 •Git仓库中海量的commit历史记录是个巨大的数据宝库，包含了丰富的用户编辑行为信息 •Gitcommit信息中的噪音也是很多的，需要构造一系列的启发式规则，用于提取出有关联的修改记录 •用户在IDE使用过程产生的LintError信息和对应修复模型训练 •基于代码大语言基座模型 •通过CT和SFT模型能够理解diff格式数据 •对于LintError修复需要加入ErrorMessage •需要通过SFT修正模型过度编辑的行为落地场景 GOPS全球运维大会暨研运数智化技术峰会2024·上海站功能与交互演示批量修改功能与交互演示下一步预测功能与交互演示 LintError修复未来展望关于模型 •更⻓的上下⽂⻓度⽀持，百K 级别甚⾄M级别的⻓度 •维持⻓上下⽂⽀持同时具备更快的推理速度 •模型不⼀定是标准的 Transformer架构 •模型具备代码编辑的能⼒关于产品形态 •完全自主的代码生成Agent可能并不适合复杂开发任务 •通过自然语言描述编码意图存在局限性 •开发者与AI一起反复构思、确认、实现完成复杂功能的迭代 •AI应该更智能地识别人类意图，并更主动地参与到编码过程欢迎体验⾖包MarsCode https://www.marscode.cn/ 限时试用AI编程助手 Thanks 高效运维社区DevOps时代荣誉出品 GOPS全球运维大会暨研运数智化技术峰会2024·上海站

点击免费查看完整报告