您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中国移动技术能力评测中心]:中国移动“弈衡”大模型评测体系研究及技术发展趋势洞察 - 发现报告
当前位置:首页/行业研究/报告详情/

中国移动“弈衡”大模型评测体系研究及技术发展趋势洞察

中国移动“弈衡”大模型评测体系研究及技术发展趋势洞察

1“弈衡”评测厚积薄发 2大模型发展趋势洞察 3下一步发展展望 2 打造中国移动权威第三方评测机构 愿景:成为中国移动核心技术能力的度量衡和磨刀石 目标:以公司“一体五环”重点产品和能力评测为中心,打造中国移动权威、中立、客观的第三方技术能力评测机构 积淀全栈评测技术 人工智能测试能力引擎栈 涉及领域广数据积累多工具手段精 文本类 语音类 语句类 违 文命规情本名内感分实容倾类体审向 核 对话类 多单智语轮轮能义对对应理话话答解 篇章类 信情文 息感本.. 抽分抽. 取类取 离线语音 语 电声音语远近话纹情音场场信识感合 道别识成 别 在线语音 测试分析管理 测试执行管理 电 远近话 场场信道 视觉类 通用服务API 数据分析类 图像类 视频类 智慧智慧内容 运维营销推荐 大 视 频 推 智数通 能智据用 业能智产 务运能品 个性化智 荐 别荐推 识维风推能 控荐 智慧运营 运业目 营务标 指智用 标能户 预预推 测警荐 应用层能力人脸 目标人体多轮OCR文本声纹 比对 检测 识别对话识别审核识别 … 性能指标算法识别准树编辑R2mAPF1值IoU/等错lcs… 确率 距离 oks误率 数据读字段 取写入解析 图像音视频外部AI 转换转码能力 … HTTP/Socket/数据多线深度 底层共性技术 WebS异步通信 ocket 库 数据 程学习处理 人人文目身手电图人人人跨人活视人 脸体字标势源片脸脸脸境体频脸 识姿识检份识状分年姿关…追流检标动… 别态别测证别态类龄态键踪量测签作 点 硬件资源 GPU资 源池 K8sdocker机械臂 开发板 … 3 搭建中国移动技术能力评测图谱,全面助力公司打造优质产品 个人/新兴业务(CN) 家庭业务(H) 行业应用(BGV) 智慧养殖猪只盘点 急救产品 (急诊分诊) 智慧养殖猪圈整体估种 医疗影像云 工业质检 (螺钉检测仪表识别) 超级SIM中间号5G新通话5G消息移动认证数字货币 云游戏 云渲染 云AR 视频直播 云VR 视频点播 云手机 数字身份 云盘 数字人 云魔百和 视频彩铃 … 智能网关家庭安全音频通信教育加速游戏加速智能门锁 家庭连接 高清机顶盒 家庭宽带 智能交互 视频通话 健康养老 室内摄像头 云魔百盒 实时音视频 语音交互 智能音箱 智能门窗磁 … 智能客服 数字人 客服平台 大数据 风控模型风控平台 课程推荐系统平安校园智慧体育智慧考场 数字孪生园区安防跨境追踪城管场景识别大数据平台城市运营管理一网通办OneDB数据库 城市AI平台 工业金融位置医疗教育农业智慧城市 急救产品 (紧急救援) 急救产品 (预案处置) 工业网关 (协议性能) 农机作业面积识别 AI辅诊产品 工业质检 (光伏电池) 室外定位室内定位 三维地图可视化引擎 卫星遥感地图地基增强星基增强... 交通 网关管理平台 远程驾驶 自动驾驶 智慧港航 工业质检 (包装传送检测) OneHealth智 慧医疗云平台 无人机保密专网 中移凌云平台 密钥安全 SIM卡… 哈勃一号 5G保密专网管理平台 文本类 情感分类 信息抽取 语义理解 智能应答 单轮对话 多轮对话 情感倾向 违规内容审核 命名实体 文本抽取 文本分类 语句类对话类篇章类 对话情绪 AI 能 力视觉类 语音类 近场 远场 语音合成 语音情感识别 声纹识别 电话信道 近场 离线语音在线语音 远场 电话信道 数据分析类 人脸识别 人体姿态 文字识别 目标检测 身份证 手势识别 电源状态 图片分类 人脸年龄 人脸姿态 人脸关键点 … 跨境追踪 人流量 活体检测 视频标签 人脸动作 … 智能业务识别 智能运维 大数据智能风控 通用产品推荐 视频推荐 个性化智能推荐 运营指标预测 业务智能预警 目标用户推荐 通用大模型 图像类视频类智慧运维智慧营销内容推荐智慧运营 行业大模型4 专委会副主任郭嘉丰向中国移动技术能力评测中心主任刘伟东授牌 5 以评促研以测选优 积极促进自有大模型提升遴选应用外部优质模型 精准定位差距 补足模型短板 6 构建完整体系 覆盖主流模型 发挥智库价值 推进行业发展 AB EF 7 4 26 评测场景评测维度 基础任务 评测要素 功能性 安全性 文本分类目标检测 应用任务 评测方式 评测指标 准确性 可靠性 应用性 交互性 智能客服 代码生成 评测数据评测工具 8 任务丰富度 多模态能力 准确度 支持完备度 功能性准确性 安全性 应用性 公平性社会偏见 商用 隐私保护合法合规 生态 鲁棒性 抗攻击性 不确定性 可靠性 交互性 实时性丰富性 流畅性 连续性 规范性 9 1“弈衡”评测厚积薄发 2大模型发展趋势洞察 3下一步发展展望 10 国外市场 ChatGPT3.5 OpenAI1750亿 GPT-4 OpenAI约1万亿 Claude Anthropic62亿 Bard 谷歌5400亿 Vicuna-13B UC伯克利130亿 Llama2 Mate700亿 ...... 国内市场 文心一言 百度1750亿 通义千问 阿里未公开 星火认知 科大讯飞500亿 百川 百川智能530亿 混元 腾讯1000亿 悟道3.0 智源10万亿 ChatGLM-130B 智谱AI1300亿 九天 中国移动研究 院 3 0亿 ...... ...... 360智脑 奇虎科技约千亿 SenseChat 商汤1800亿 天工 昆仑万维约千亿 ABAB MiniMax约千亿 云雀 抖音未公开 Moss 复旦大学160亿 ChatGLM2-6B 智谱AI60亿 紫东太初 中科院自动化 所 10亿 00 科技大厂 科研机构 开源模型 11 80国外国内开源 60 评 综合 分40 20 0 评测对象 12 90 80 70 60 50 40 30 国际领先 国内领先 国内平均 13 模型数量对比 已评测模型综合性能对比 总数量备案数量 80 60 69 70 6055 50 58.53 55.33 4050 30 22 201445 104 040 北京上海 北京上海 14 功能性 10 8 6 4 准确性 40 35 30 25 20 15 可靠性 10 8 6 4 安全性 10 8 6 4 交互性 20 16 12 8 10 2224 5 0 国外国内 0 国外国内 0 国外国内 0 国外国内 0 国外国内 15 1“弈衡”评测厚积薄发 2大模型发展趋势洞察 3下一步发展展望 16 多模态评测能力 通用↔行业大模型 评测合作平台 智慧政务智能客服 17 正在征集首批联盟单位,欢迎大家踊跃报名! 联系邮箱:zgydjsnlpczxfs@chinamobile.com 18 中国移动希望与产业界和学术界携手, 共同构建大模型评测合作生态,推进大模型蓬勃发展 19

你可能感兴趣

hot

高东辉:中国移动“弈衡”大模型评测体系

信息技术
中国移动研究院2024-01-17
hot

『弈衡』人工智能大模型评测平台白皮书

信息技术
中国移动研究院2024-06-07