行业研究公司研究宏观策略财报招股书会议纪要稀土低空经济 DeepSeek AIGC 智能驾驶大模型

“弈衡”通用大模型评测体系白皮书

2023-07-14-中国移动研究院李***

AI智能总结

评会议围绕研报的重点内容,不能编造其他内容。

当前,人工智能大模型(大模型)是实现生成式人工智能服务(AIGC)的重要技术。ChatGPT于去年11月上线,并迅速获得了1亿的活跃用户数量,这极大地激发了大模型技术的爆发式发展。全球科技公司都把大模型的发展作为了自己的重点,纷纷加大了在大模型研究上的投入和力度。

2.1 大模型的评测需求

大模型的评测需求相对于传统的机器学习模型更为复杂,需要考虑模型的准确性和效率。在大模型研究中,通常需要考虑以下几个方面的评测需求:

2.1.1 准确性:大模型需要保证较高的准确率,尤其是在面对一些特定场景或者特定类型数据的时候,这就需要对模型进行严格的实验验证。

2.1.2 效率:大模型的训练和推理过程需要较长的训练时间,而且需要大量的计算资源,因此需要考虑模型的效率,即训练时间和工作负载。

2.1.3 可扩展性:大模型需要具有良好的可扩展性,能够适应不同的场景和需求。这就需要研究人员在研究过程中注重模型的可扩展性,对模型进行优化和调整。

2.2 大模型的评测维度

在大模型研究中,需要考虑多种评测维度,以便全面评估模型的性能和质量。常用的评测维度包括:

2.2.1 数据集大小:数据集大小越大,模型的表现就越好,因为模型需要考虑到更大的数据集,才能得到更好的泛化能力。

2.2.2 数据集质量:数据集的质量对于模型的性能至关重要,因为模型需要从高质量的数据中学习,才能得到更好的准确性和效率。

2.2.3 模型复杂度:模型复杂度对于模型的性能和效率也是一个重要的考虑因素,因为复杂的模型可能会导致过拟合等问题。

2.3 大模型的评测指标

在大模型研究中,需要考虑多种评测指标,以便全面评估模型的性能和质量。常用的评测指标包括:

2.3.1 损失函数:损失函数是衡量模型预测准确率的一个指标,通常使用交叉熵损失函数来衡量模型的损失。

2.3.2 准确率:准确率是衡量模型预测准确率的一个指标,通常使用准确率来衡量模型的准确率。

2.3.3召回率:召回率是衡量模型对目标数据集的召回能力的指标,通常使用召回率来衡量模型的召回能力。

2.3.4F1分数:F1分数是衡量模型预测准确率的一个指标,通常使用F1分数来衡量模型的F1分数。

...................................................................................................... ............................................................................ 1.1大模型发展现状.................................................................................................21.2评测需求..............................................................................................................31.3评测问题与挑战.................................................................................................4 ............................................................................ 2.1主要评测方式......................................................................................................52.2典型评测维度......................................................................................................52.3常见评测指标......................................................................................................6 ........................................................................................ ........................................................... 4.1整体框架..............................................................................................................84.2评测场景..............................................................................................................94.3评测要素............................................................................................................114.4评测维度............................................................................................................16 ......................................................................... ............................................................................................. 人工智能大模型（以下简称大模型）是实现生成式人工智能服务（AIGC）的重要技术，ChatGPT上线两个月活跃用户（MAU）突破1亿，激发了大模型技术的爆发式发展，全球科技公司开启大模型“科技竞赛”。国外科技巨头微软、谷歌、META等，加快大模型研发，并迅速应用到搜索、办公、音乐、视频等领域。我国头部企业积极开展自主可控的大模型研发，百度、腾讯、华为、阿里、中科院自动化所、智谱AI、科大讯飞等公司的大模型也相继推向市场。各家公司也加快大模型的迭代升级速度，OpenAI、谷歌、百度已经在短短几个月内多次升级大模型版本，能力提升明显，大模型行业竞争激烈。与此同时，随着大模型评测需求逐渐增加,相关研究也进一步深入。大模型相比传统模型，泛化能力更强、灵活性更高、适应性更广，多任务、多场景，评测维度、评测指标和数据集更复杂，面向大模型的评估方法、评测基准、测试集成为新的研究课题。业界头部公司、主流科研机构和重点高校等权威组织，如OpenAI、微软、斯坦福大学、信通院，在评测框架、评测指标、数据构建方法等方面发表了一些论文和研究报告，从准确性、鲁棒性、毒害性、公平性等评测维度对相关大模型进行了评测，为用户和行业充分掌握大模型能力发挥了积极作用。目前业界多家机构发布了大模型的评测榜单，但是评测维度及侧重点各有不同。从推动AI大模型成熟应用、促进生态繁荣、指引产业优化方向的角度，有必要从用户视角，构建一套客观全面、公平公正的大模型评测体系。中国移动技术能力评测中心作为中国移动的专业评测机构，也在关注和跟进大模型评测技术发展。自2019年起陆续开展了专业公司31+N考核对标评测、技术中台能力准入等工作，涵盖人工智能、互联网、物联网、大数据、大视频等20余个领域1000余项产品和能力，积累了丰富的产品技术能力评测经验和数据。基于前期积累，对业界各类大模型评测技术进行了充分调研和评测验证，构建了“弈衡”通用大模型“2-4-6”评测体系，并基于该体系对已发布的大模型进行了广泛的评测。随着大模型技术的不断发展，“弈衡”通用大模型评测体系也将持续迭代完善，希望通过发布《“弈衡”通用大模型评测体系白皮书》，与产业界相关企业和研究机构一道，加强交流合作，逐步完善测试指标、测试方法、测试数据、测试自动工具，共同建立评测产业标准化生态，为业界大模型评测提供参考依据，促进大模型技术的产业成熟和应用落地。 1.1大模型发展现状随着大模型技术的快速发展，其巨大的参数量、计算量以及模型复杂度，在解决复杂任务方面具有很大的优势，主要体现在强大的理解和生成能力、高度的泛化能力、优秀的可迁移学习特性及端到端训练优势。大模型技术受到各类行业的广泛关注，通过将大模型与实际业务相结合，可为用户提供更加个性化、更符合用户需求的服务。大模型在多个领域的应用示例如下：随着大模型的发展，模型能力还将不断扩展，通过文本、图像和语音等多种形式。与更多新兴的应用场景相结合，赋能千行百业。 1.2评测需求由于大模型高度复杂的结构，如何对其进行全面、客观的评测成为了一个亟待解决的问题。与传统AI模型单一的应用领域相比，大模型在多任务和多领域方面展现出卓越的性能和泛化能力。因此，针对大模型产品的评估通常需结合多种不同任务，从多个维度展开综合评价。在现阶段的研究与实践中，大模型评测的主要需求包括但不限于以下几类：文本类大模型：此类模型需要能够依据提示创作符合需求的文本内容，并依赖知识和文本逻辑，推理并回答用户问题。在文本生成任务中，主要考察模型生成内容是否满足使用者要求，并具备正确性、流畅性、规范性和逻辑性；在知识应用任务中，则需要模型覆盖尽可能多的领域，并具备一定深度，同时还应具备对知识的理解与运用能力；在推理任务中，还需对模型生成内容是否符合人类思维的判断、推理过程质量、推理过程与答案一致性、数值计算正确性等指标进行评估。图像类大模型：此类模型需要识别并定位图像中的各种物体，对其进行分类，并将不同对象或区域分割开来，在此基础上，通常还要求模型根据给定的描述生成新的图像。在图像分类任务中，核心指标包括分类的准确性、鲁棒性及对新类别的泛化能力；物体检测任务更关注对复杂场景的处理能力和检测的准确率、覆盖率；图像分割任务更能体现模型对细节的处理能力；对于图像生成任务，对于图像质量和创新型的评测需要更综合的评测方法。语音类大模型：此类模型需要能够识别多种人类语音，实现文本和语音的双向转化。在语音识别任务中，需要评估模型是否能够准确、高效地将人类语音转化为文字表达，关注模型括识别准确率、噪声抑制效果、多语种处理能力等；在语音合成任务中更关注合成语音的括语音质量、语音流畅度、音韵准确性等。除上述几类模型中的评测需求之外，针对模型及产品的各项能力，还需探究大模型生成结果的置信度、训练数据与生成结果的一致性、对生成内容的规划能力、噪声和扰动下的稳定性、对于提示词的敏感性等传统NLP、CV及语音任务涉及较少的评测指标，形成更为标准化和通用的解决办法。大模型评测对于推动人工智能技术的发展具有重要的意义。一方面，通过对大模型性能的评测，可以为模型优化和改进提供有力依据，从而提高其应用效果和商业价值。另一方面，大模型评测可以了解大模型在不同行业的性能和适用性，促进人工智能技术在各行业的发展和应用。此外，大模型评测还可以促进不同领域研究者的技术交流和合作，推动人工智能技术的共同发展。 1.3评测问题与挑战技术发展日新月异，大模型评测需要与时俱进。随着人工智能领域的飞速发展，评测难度也在逐渐增加。为了保障评测针对性和有效性，需要不断更新评测标准和方法。首先，大模型复杂性对评测提出挑战。随着人工智能不断发展，大模型复杂性不断增长，评测需求多样性更加显著。大模型涉及到文本生成、问答系统、知识图谱、图像创作、语音生成等多个任务领域。如文章写作任务中，模型的生成质量是重要指标之一，需要考虑到文本是否自然、流畅，是否符合语言规范，是否有语法错误等。而图片创作任务中，图片的视觉效果、清晰度、色彩鲜艳度等是评估模型性能的重要指标。面对以上问题，需要制定一套更为全面的评测体系，以全面评价模型能力。其次，大模型泛化性对评测提出更高要求。大模型在很多任务上已经达到或超过了人类的水平，但在某些特定领域中，它们的性能仍然有待提高。对于低资源任务，评测者需要关注模型在使用少量语料时的表现，需要考虑到语言之间的差异性和复杂性，以便更好地评估模型在不同场景下的泛化能力。对于专业领域任务，需要关注模型对领域特定术语、概念和规则的理解和应用，使用更广泛的数据集和跨领域的评测任务，以确保评测结果具有泛化性和可靠性。再者，大模型安全性也需要重点考虑。数字化时代，攻击者可能会利用特定数据来攻击模型，或者破坏模型的性能。对抗性攻击是一种常见的攻击类型，通过向模型输入有意制造的数据或恶意样本来欺骗模型或破坏模型的性能。对抗性样本可以模拟现实世界中的攻击。如图像分类任务，针对正确分类的样本，可以通过添加一些扰动来生成对抗性样本，导致模型对其错误分类。面对以上问题，需要考虑各种攻击模型，并设计相应任务来评估模型安全性。总之，随着大模型的不断发展和应用，评测工作所面临的挑战逐渐增加。需要重点考虑多样性、普适性、客观性和公正性等评测需求，充分评估大模型的性能和潜力，为大模型技术的进一步发展提供支持。目前，业界头部公司、主流科研机构和重点高校等权威组织对大模型评测技术开展了深入研究，并通过技术报告、论文、行业标准等多种形式发布相关研究进展。本文主要参考OpenAI、微软、斯坦福大学及清华大学等研究成果[1-9]，对评测框架、评测指标、数据构建方法进行了分析和总结。 2.1主要评测方式按照评测方式划分，业界常用的大模型评测技术分为客观评测及主观评价两种方式。客观评测是大模型评测中常用

点击免费查看完整报告

你可能感兴趣

“弈衡”通用大模型评测体系白皮书

你可能感兴趣

『弈衡』多模态大模型评测体系白皮书

弈衡：多模态大模型评测体系白皮书

高东辉：中国移动“弈衡”大模型评测体系

中国移动“弈衡”大模型评测体系研究及技术发展趋势洞察

『弈衡』人工智能大模型评测平台白皮书