您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[厦门渊亭信息科技有限公司]:2024军事大模型评估体系白皮书 - 发现报告
当前位置:首页/行业研究/报告详情/

2024军事大模型评估体系白皮书

2024军事大模型评估体系白皮书

C渊亭科技 2024 军事大模型评估体系白皮书 精简版 厦门亭信息科技有限公司二O二四年五月 C洲亭科技军事大模型评估体系白皮书 前言 数学化时代,人工智能技术正以前所未有的速度发展,其中天模型技术作为AI领域的核心技术之一,己经成为推动社会进步和产业 创新的重要力量。大模型,以其强大的效据处理能力和深度学习能力,正在多个领域展现出其独特的价值和潜力,从自然语言处理到图像识别,从智能推荐到自动驾驶,天模型正在不断拓宽人工智能的能力边界。 伴随着大模型技术的快速发展,越来越多应用在军事情报、指挥 控制、智能武器、无人系统等领域的车事大模型应运而生,助推车事智能化转型。其中,对大模型的真实质量的掌握,对指导研究方向、优化能力设计、提升应用效能有著重要意义。全面、客观、准确的评估特定大模型针对场景的实际能力,需要有一个完善的模型评估方法论,科学、客观的对大模型的各项能力进行定性、定量评估。 近年来,渊亨科技积极参与行业内大模型的各项能力评估建设,取得了突出成果。作为国内最早从事军事大模型建设的企业之一,渊亨科技凭借在军事智能化领域的深厚积累,编撰完成《军事大模型评估体系白皮书》。白皮书全面的整理了军事大模型能力评估方向的主流观点、关键要素,并重点闸述了针对典型维度进行系统化评估的最佳实践。预期能为行业内开展军事大模型的能力评估提供体系化的参 考。 C洲亭科技军事大模型评估体系白皮书 目录 1背景 2总体架构 3评估框架4 3.1架构能力..5 6 3.2基础能力,.6 通用基础能力. 3.2.1 3.2.2军丰基础能力7 平台能力. 3.3.1 3.3.2 大模型数据生成能力 大模型开发训练能力 大模型军事应用编排能力9 3.3.4其他支撑能力. 3.4 .10 3.4.1 强敌研究领域... 10 3.4.2 作战指挥领域.. 10 3.4.3 装备研制领域.. 11 3.4.4 训练管理领域... 11 3.5 3.4.5 联勤保障领域. 军事大模型的安全能力 12 3.5.1 军事偏见。 12 3.5.2 合法合规。 12 3.5.3 军事保密 13 3.5.4 对抗攻击. 13 3.5.5 算法加固, 13 3.5.6 伪造检测 13 3.5.7 数据防泄露 13 军事大模型的应用能力 4评估标准 4.1评分标准...14 4.2评估方法,15 成熟度分级标准 4.3 1 C洲亭科技军事大模型评估体系白皮书 5评估手段16 5.1基础能力评估.17 架构能力评估.. 5.2 5.3平台能力评估... 应用能力评估..18 5.4 5.5安全能力评估。19 6评估数据19 评估数据类型, 6.1 6.2评估数据样例. 7评估工具23 7.1验证方法, 通用能力评估工具 7.2 7.3智能体评估工具25 8评估平台.26 8.1产品功能介绍.. 8.1.18.1.2 模型管理... 28 8.1.3 模型评估机制管理 28 8.1.4 评估过程管理.. 29 8.1.5 评估报告管理... 8.1.6 服务资源管理... 31 8.2 产品优势.. 31 8.3 应用场景 32 9结语 32 测评集管理,27 C洲亭科技军事大模型评估体系白皮书 1背景 2022年11月,OpenAI发布了名为ChatGPT✁人工智能应用 其以预训练大语言模型GPT3.5为基础,惊艳✁自然语言交互效果, 使得公众、行业对人工智能✁能力预期大大提升,在国内外掀起了一 股新✁人工智能能力建设和应用浪潮。2024年2月,OpenAI公布了 文生视频大模型Sora、并提供者干样例视频,在行业内再一次引起巨大反响,以预训练大模型为核心✁生成式人工智能技术,应用边界进一步拓宽。 在过去✁几年中,中国✁大模型技术和行业经历了快速✁创新与发展。在通用大模型层面,百度、华为、阿里、讯飞、智谱、百川、月之暗面等企业根据自身✁特点,采取开源、闭源等路线,持续聚焦底座模型效果和生态圈建设:在领域大模型层面,诸多传统企业和初 创企业围绕Al-Native、Al-Copilot等概念各展所长,或基于自身业务 引入大模型巩固和强化竞争优势,或针对新✁方向进行细分市场探索尝试创造新✁商业模式:在场景应用层面,越来越多✁大模型目标用户尝试整合私域数据,结合自身✁战略布局,探索大模型技术✁ 赋能方法,提升企业运营、生产制造、能力营销等方面✁效率、质量。能力被认可和推广✁一项重要前提,是合理、可行✁能力评估。 通用大模型层面,目前评估以“榜单为主要✁体现形态,例如MMLU、 CEval、SuperCLUE、GSM8K、Humaneval等,在不同榜单下各模型 排名差异较大,原因在于评测数据、测试方法等还不够成熟、科学,且存在无意(例如训练数据集被污架)、恶意(例如主动将测试数据集纳入训练微调过程)✁"刷榜"现象。领域大模型层面,和通用大模型✁能力评估现状和比,存在✁问题更多,例如难以组织有效✁领域测试数据集、使得大模型领域能力无从测起,没有系统✁领域大模型生成和效果✁测试方法、导致测试效果难被取信。自前国内已经有一些行业组织正在开展领域人模型相关✁行标、国标建设。场景应用层 1 C洲亭科技车事大模型评估体系白皮书 面✁能力评估,由于需和上下游应用环境和信息系统深度对接,也有 -些新✁问题,例如模型生产和推理平台对企业既有基础设施✁影响, 模型和现场数据、系统之间✁协同,模型在复杂使用环境下✁安全保 障等。 随着国防智能化建设✁深入,军内很多机构都对大模型能力产生了浓厚✁兴趣,军事大模型应用场景也非常丰富,如车事情报、指择控制、智能武器、无人系统等领域。军事大模型作为一类特殊✁领域大模型,也有一些自身✁能力评估特点。 军事领域✁数据✁机密性和敏感性众所周知。一方面,基础大 模型很难在预训练/微调阶段注入足够✁军事知识,军事认知必须在 领域或大模型构建过程中形成,使得领域大模型✁车事常识能力评估显得愈发重要:另一方面,常识能力评估所需✁数据集,也因为军事数据✁特点,领域大模型✁评测数据集构建更为困难,因此更难展开有效✁领域大模型评估工作。 军事领域高对抗性✁特点,使得军事大模型和常规领域大模型相比面临者更为严✁安全挑战。例如,通用大模型面临✁偏见,在军事领域可能升级为“认知战”手段、对方刻意对大模型能力进行干扰: 叉例如传统人工智能模型面临✁对抗攻击、内容伪造、数据泄露问题,在军事大模型应用场景中需要得到更多✁评估。 现代智能化战争一定是体系对抗,信息手段之问也需要有效配合 军事大模型✁应用成效极大✁体现在和平时、战时既有系统✁协同。而军事信息化系统✁特殊性,使得领域大模型✁能力评估,只能在特定✁区域、特定✁时刻结合特定✁数据开展,这就对能力评估✁方法论和手段集提出了新✁要求。例如如何快速✁结合现场提供✁数据构造测试数据集、如何快速✁结合业务目标完成领域测试项准备等。 退导科技长期放事认知和决策智能领域创究和项自年设,参辅! 多项人工智能相关标准。近年来,也和一些行业主导标准化机构进行合作,推进围绕大模型✁各项能力评估,例如人模型驱动✁知识图谱,大模型运营能力等。基于以上背景,渊亭科技结合多年服务军事智能 2 C洲亭科技军事大模型评估体系白皮书 化领域✁行业认知,以及在军事大模型能力应用上✁产品研发和项目实践经验,编撰完成本白皮书,希望研究成果能为社会各界参与军事大模型建设提供借鉴和参考。 2总体架构 军事大模型评估体系围绕大模型在军事场景智能化能力表现进行科学合理✁评估评价,实现大模型评估全流程,支撑军事大模型✁部署应用、模型改进和决策制定,确保军事大模型在车事业务场景✁应用价值。军事大模型评估体系如下图: 年台力安全能力 军事大模型评估工具 图1大模型评估体系架构 车事大模型评估体系主要包括车事大模型评估数据、军事大模 型评估手段、军事大模型评估工具以及军事大模型评估指标等内容。 (1)军事大模型评估数据:军事大模型评估数据包括外部开源。 主流评估以及用户领域等方面✁评估数据集。 (2)军事大模型评估手段:军事大模型评估手段与评估场景及环境相适应,即满足人工评估模式,也支持基于规则、模型✁首动化评估模式。 (3)军事大模型评估工具:军事大模型评估工具负责内外部数据管理、评估手段实现、军事大模型兼容以及融合评估指标标准等能力。 3 C洲亭科技军事大模型评估体系白皮节书 (4)军事大模型评估标准:军事大模型评估标准提供大模型✁基础、架构、平台、应用以及安全能力多层次✁评估,结合评估需求,灵活定义评估指标,实现评估标准场景自定义。 3评估框架 评估指标体系是军事大模型基准测评体系框架✁核心组成部分,围绕强敌研究、作战指挥、装备研制、训练管理和联勤保障等5类军事业务场景,针对军事信息系统高风险、高动态、强对抗✁任务特点构建一整套科学、客观、量化✁评估指标,全面评估军事人模型在不同维度、领域和场景中✁性能表现,为用户开展大模型选型提供标准化✁测评参考,为大模型系统✁上线运行提供可信✁衡量标准,并为大模型✁优化改进提供明确方向。 至事大模型评估框架 作指弹 产 架构能力 用能力强究 20 安全能力 R*管E早事机 平台能力 产产 大保教生成力大胞开发力大信至惠空用总力 鲁法 测评于段方法 主用法 0050148 形式分 测用工具第EHTA 图2军事大模型评估框架 评估指标体系由架构能力、基础能力、平台能力、应用能力和安 4 C洲亭科技军事大模型评估体系白皮书 全能力5个维度✁评估指标构成。(1)架构能力指标设计主要考核大模型体系化支撑军事应用✁架 淘成熟程度: (2)平台能力指标设计主要考量大模型系统✁数据生成、开发训练、 应用编排和具他支撑能力:(3)基础能力指标设计主要覆盖大模型✁通用基础能力和军事基 础能力; (4)应用能力指标设计侧重于从五大军事业务领域,评估大模型在 实际军事业务场景中✁表现: (5)安全能力指标设计重点评价模型在军事偏见、合法合规和数据保密等方面✁性能。 3.1架构能力 军事大模型✁架构能力是军事大模型系统整体性能✁重要基石及确保大模型在军事领域准确高效处理数据、稳定可靠承载业务、安全可信落地应用✁关键。主要体现在如下方面: 准确性:是衡量模型性能✁美键因素,通常包括查准率 (Precision)、查全率(Recall)、简活性(Brevity)和结果置信度 (ConfidenceScore)等指标项。 健壮性:是评估模型在面对复杂挑战时稳定性和可靠性✁重要标准。旨在衡量模型在面对对抗样本时,能够保持正确预测✁能力。 兼容性:是评估大模型对不同技术环境和组件✁适应能力。包含对基座大模型接口和功能✁适配性、对国产自主可控软硬件系统✁兼容性以皮第三方专业小模型,领域知识库和工具插性✁兼容性 可评估:涉及架构能力评估、基础能力评估和场景应用能力评估三个层面。架构能力评估关注模型设计和内部机制✁合理性:基础能方评估则涉及模型在标准任务上✁表现:场景应用能力评估考量模型在特定应用场景中✁实用性和效果。 可解释:是确保模型✁决策过程和结果对人类用户透明和可理解 5 C渊亭科技军事大模型评估体系白皮书 ✁关键要素。主要包括推理过程可解释、推理结果可解释、数据来源可解释、推理流程可视等指标项。 可仲缩:衔量✁是模型在不同规模硬件部署环境下✁适应性和灵活性。包括模型部著运行尺寸✁可伸缩性,即模型能够在不同计算能力和资源条件下运行:不同参数量✁部署可伸缩性,意味着大模型能根据实际需求调整参数模等。 高扩展:用于衡量大模型能否适应未来技术发展和应用需求✁变 化,包括对基座大模型版本升级、专业小模型、领域知识库和工具插件✁扩展升级及系统功能扩展和二次开发能力✁支持。 高可用:是衡量大模型系统在实际应用中✁稳定性和响应能力✁重要标准。包括系统✁可靠性、平均无故障时间、平均响应时间、内容生成速度等指标项。 高运维:体现了模型在运维管理方面✁高效性和便捷性。该