您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动研究院]:高东辉:中国移动“弈衡”大模型评测体系 - 发现报告
当前位置:首页/行业研究/报告详情/

高东辉:中国移动“弈衡”大模型评测体系

高东辉:中国移动“弈衡”大模型评测体系

中国移动技术能力评测中心打造国资央企权威第三方评测机构 愿景:成为国资央企核心技术能力的度量衡和磨刀石 目标:以公司“一体五环”重点产品和能力评测为中心,打造权威、中立、客观的第三方技术能力评测机构 积淀全栈评测技术 人工智能测试能力引擎栈 涉及领域广数据积累多工具手段精 文本类 语音类 语句类 违 文命规情本名内感分实容倾类体审向 核 对话类 多单智语轮轮能义对对应理话话答解 篇章类 信情文 息感本.. 抽分抽. 取类取 离线语音 语 电声音语远近话纹情音场场信识感合 道别识成 别 在线语音 测试分析管理 测试执行管理 电 远近话 场场信道 视觉类 通用服务API 数据分析类 图像类 视频类 智慧智慧内容 运维营销推荐 大 视 频 推 智数通 能智据用 业能智产 务运能品 个性化智 荐 别荐推 识维风推能 控荐 智慧运营 运业目 营务标 指智用 标能户 预预推 测警荐 应用层能力人脸 目标人体多轮OCR文本声纹 比对 检测 识别对话识别审核识别 … 性能指标算法识别准树编辑R2mAPF1值IoU/等错lcs… 确率 距离 oks误率 数据读字段 取写入解析 图像音视频外部AI 转换转码能力 … HTTP/Socket/数据多线深度 底层共性技术 WebS异步通信 ocket 库 数据 程学习处理 人人文目身手电图人人人跨人活视人 脸体字标势源片脸脸脸境体频脸 识姿识检份识状分年姿关…追流检标动… 别态别测证别态类龄态键踪量测签作 点 硬件资源 GPU资 源池 K8sdocker机械臂 开发板 … 2 助力打造优质产品,绘制并逐步拓展CHBNGV全领域技术能力评测能力 个人/新兴业务(CN) 云游戏 超级SIM 云渲染 云AR 中间号 视频直播 云VR 5G新通话 视频点播 云手机 5G消息 数字身份 云盘 移动认证 数字人 云魔百和 数字货币 … 视频彩铃 家庭连接 家庭宽带视频通话室内摄像头实时音视频智能音箱 家庭业务(H) 智能网关家庭安全音频通信教育加速游戏加速智能门锁 … 高清机顶盒 智能交互健康养老云魔百盒语音交互智能门窗磁 行业应用(BGV) 工业 金融 位置 医疗 教育 农业 智慧城市 工业质检 (螺钉检测仪表识别) 工业质检 (光伏电池) 工业网关 (协议性能) 网关管理平台 智能客服数字人客服平台大数据风控模型风控平台 交通 远程驾驶自动驾驶 室外定位 室内定位三维地图可视 化引擎卫星遥感地图 地基增强星基增强 医疗影像云急救产品(急诊分诊) AI辅诊产品急救产品 (预案处置)急救产品 (紧急救援) 课程推荐系统平安校园智慧体育智慧考场 无人机中移凌云平台 智慧养殖猪圈整体估种智慧养殖猪只盘点农机作业面积识别保密专网 密钥安全SIM卡… 数字孪生园区安防跨境追踪 城管场景识别大数据平台城市运营管理一网通办 OneDB数据库 工业质检 (包装传送检测) 智慧港航 ... OneHealth智慧医疗云平台 哈勃一号 5G保密专网管理平台 城市AI平台 语音类 语句类 文本类 对话类 篇章类 离线语音 在线语音 AI 能力 文本分类 命名实体 违规内容审核 情感倾向 多轮单轮智能 对话对话应答 语义理解 信息抽取 情感分类 文本抽取 对话情绪 远场 近场 电话信道 声纹识别 语音情感识别 语音合成 远场 近场 电话信道 视觉类 图像类视频类智慧运维 人脸人体文字目标身份手势电源图片人脸人脸识别姿态识别检测证识别状态分类年龄姿态 人脸关键点 … 跨境追踪 人流活体视频量检测标签 人脸动作 … 智能业务识别 智能运维 智慧营销 大数 据智能风控 通用产品推荐 数据分析类 内容推荐 个性 视频化智 推荐能推荐 智慧运营 运营业务目标指标智能用户预测预警推荐 通用大模型 行业大模型 为促进大模型技术进步和产业发展,推进大模型评测工作,中国中文信息学会正式成立CCIR大模型评测工作组,并由专委会副主任郭嘉丰向中国移动技术能力评测中心主任刘伟东授牌 4 召开大模型评测技术峰会,推进行业发展 组织百度、讯飞、清华、北邮、中国科学院计算所、中国信通院等业界头部企业及机构,召开“众智评鉴、测行致远”大模型评测及应用研讨会,发布业界首个评测体系白皮书 5 承接各级大模型评测任务,促进国产大模型成熟应用 国家级 省部级 集团级 根据国资委要求,落实战新大模型评测任务,助力国资央企大模型成熟 构建国内市场通用、公认的人工智能测试评估体系,健全人工智能服务体系 为国资央企大模型提供评测服务 与北京市政府合作,评测北京市主流大模型 聚焦教育、医疗、政务、交通等领域的业务场景,对政务行业大模型开展评测 为北京市发展大模型编写内参 支撑集团开展常态化评测工作 对国内外30余款主流大模型开展多轮评测 形成洞察分析报告,助力大模型决策 6 4 26 评测场景评测维度 基础任务 评测要素 功能性 安全性 文本分类目标检测 应用任务 评测方式 评测指标 准确性 可靠性 应用性 交互性 智能客服 代码生成 评测数据评测工具 7 国外市场 ChatGPT3.5 OpenAI1750亿 GPT-4 OpenAI约1万亿 Claude Anthropic62亿 Bard 谷歌5400亿 Vicuna-13B UC伯克利130亿 Llama2 Mate700亿 ...... 国内市场 文心一言 百度1750亿 通义千问 阿里未公开 星火认知 科大讯飞500亿 百川 百川智能530亿 混元 腾讯1000亿 悟道3.0 智源10万亿 ChatGLM-130B 智谱AI1300亿 九天 中国移动研究 院 3 0亿 ...... ...... 360智脑 奇虎科技约千亿 SenseChat 商汤1800亿 天工 昆仑万维约千亿 ABAB MiniMax约千亿 云雀 抖音未公开 Moss 复旦大学160亿 ChatGLM2-6B 智谱AI60亿 紫东太初 中科院自动化 所 10亿 00 科技大厂 科研机构 开源模型 8 国外国内开源 80 综60 合评 分40 20 0 9 多模态评测能力 通用↔行业大模型 评测合作平台 智慧政务智能客服 10 中国移动希望与中央企业携手, 共同构建大模型评测合作生态,推进大模型蓬勃发展 11