您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国盛证券]:阿里通义千问测评:国内一线,积极追赶 - 发现报告
当前位置:首页/行业研究/报告详情/

阿里通义千问测评:国内一线,积极追赶

信息技术2023-04-09刘高畅国盛证券有***
阿里通义千问测评:国内一线,积极追赶

阿里开放内测通义千问,AI大模型领域早已深耕多年。2023/4/7,阿里 开启了通义千问大语言模型内测。阿里达摩院在NLP等前沿科研领域布 局多年,于2019年启动大模型研发,在超大模型、语言及多模态能力、 低碳训练、平台化服务、落地应用等多个方面,为中文大模型的发展做出 一系列探索工作 :2019年 , 阿里就发布了大规模预训练语言模型 structBERT并登顶全球NLP权威榜单GLUE;2021年10月,阿里探索以 较低能耗训练出全球首个10万亿参数大模型M6;2022年9月,阿里发 布了历年技术沉淀的“通义”大模型系列,相关核心模型和技术通过魔搭 社区开源开放。 厚积薄发,阿里在大模型各个方面都具备深厚储备。动辄超千亿参数的大 模型研发,不是单一的算法问题,也不是简单的堆算力的过程,这是囊括 了底层算力、网络、存储、数据清洗与治理、AI框架、AI算法、人类调 优等多个方面的系统性工程问题。1)算力方面:亚太第一的云计算厂商, 坐拥训练效率高达11倍的智算中心“飞天智算平台”。2)算法方面:多 年深耕积累,前瞻布局NLP与多模态方向。3)开放AI模型生态:推出开 源AI模型社区“魔搭”ModelScope,旨在降低AI的应用门槛。我们预 计,未来阿里大模型有望在智能办公、应用开发、智能家居等领域落地应 用,赋能工作者快速完成文件工作、以语言指令方式完成应用代码、甚至 进入真正的智能助手时代。 通义千问测评:国内一线,积极追赶。我们通过十道问答题,考察了阿里 通义千问的能力,对比百度文心一言、chatGPT(GPT3.5)以及New bing (GPT4+搜索)在逻辑、计算、文字创作等方面的能力进行测评。从对比 测评结果来看,通义千问已经具备一定基础常识与初步的逻辑思考能力, 并且有一定的代码书写能力,但在复杂理科计算方面仍有提升空间;文字 创作领域,已经具备相当的实用性,尤其在涉及语言翻译的领域表现较为 出色。总的来说,当前虽然未能达到GPT4的水平,但和国内模型相比却 可圈可点,处于国内领军水平。 建议关注: 阿里系生态:光云科技、千方科技、朗新科技、寒武纪、数据港、金桥信 息、石基信息等。 智能助理:科大讯飞、传音控股、漫步者、惠威科技、国光电器、恒玄科 技、奋达科技、德赛西威、中科创达、光庭信息等。 风险提示:AI技术迭代不及预期风险;经济下行超预期风险;行业竞争加 剧风险。 1、阿里开放内测通义千问,AI大模型领域厚积薄发 阿里开放内测通义千问大语言模型。2023/4/7,阿里开放内测通义千问大语言模型,可在https://tongyi.aliyun.com网页使用。这是阿里在NLP领域深耕多年厚积薄发的成果,未来有望应用于办公、开发者、智能家居等各个领域。 图表1:阿里开放内测通义千问大模型 阿里达摩院深耕NLP领域,在大模型技术路径上具备多年前瞻技术积累,是国内前沿方向领军。阿里达摩院在NLP等前沿科研领域布局多年,于2019年启动大模型研发,在超大模型、语言及多模态能力、低碳训练、平台化服务、落地应用等多个方面,为中文大模型的发展做出一系列探索工作:2019年,阿里开发出了大规模预训练语言模型structBERT并登顶全球NLP权威榜单GLUE;2021年,阿里开发出了国内首个超百亿参数的多模态大模型M6(英文全称是MultiModality-to-MultiModality Multitask Mega-transformer,6个M,简称M6);2021年8月,阿里大模型在全球机器视觉问答榜单VQA上首超人类得分;2021年10月,阿里探索以较低能耗训练出全球首个10万亿参数大模型M6;2022年9月,阿里开发出了历年技术沉淀的“通义”大模型系列,相关核心模型和技术通过魔搭社区开源开放。 图表2:阿里在大模型领域具备多年技术积累 厚积薄发,阿里在大模型各个方面都具备深厚储备。动辄超千亿参数的大模型研发,不是单一的算法问题,也不是简单的堆算力的过程,这是囊括了底层算力、网络、存储、数据清洗与治理、AI框架、AI算法、人类调优等多个方面的系统性工程问题。阿里是全球少数在这几个领域都有深度布局、长久积累的科技公司之一,也是为数不多拥有超万亿参数大模型研发经验的机构。 算力方面:亚太第一的云计算厂商,坐拥训练效率高达11倍的智算中心“飞天智算平台”。阿里是亚太第一的云计算厂商,根据行业权威研究机构Gartner开放内测2021年全球云计算IaaS市场份额数据显示,阿里云排名全球第三,市场份额为9.55%,连续六年实现份额增长;同时,阿里云排名亚太市场第一,市场份额为25.53%。在AI算力方面,2022年阿里云宣布正式推出全栈智能计算解决方案“飞天智算平台”,并启动两座超大规模智算中心,为科研、公共服务和企业机构,提供强大的智能计算服务,通过先进的技术架构,飞天智算平台实现了90%的千卡并行计算效率,可将算力资源利用率提高3倍以上,AI训练效率提升11倍,推理效率提升6倍。 图表3:2021年阿里是亚太第一的云计算厂商 图表4:阿里飞天智算中心能够大幅提升AI计算效率 算法方面:多年深耕积累,前瞻布局NLP与多模态方向。2019年,阿里开发出了大规模预训练语言模型structBERT并登顶全球NLP权威榜单GLUE;2021年,阿里开发出了国内首个超百亿参数的多模态大模型M6,可以完成服装设计、推荐理由生成、视觉问答、图文检索等功能。阿里早在数年前起已经在布局大语言模型技术方向,并且已有了多模态方向的探索,技术布局前瞻。 开放AI模型生态:推出开源AI模型社区“魔搭”ModelScope,旨在降低AI的应用门槛。ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单。魔搭以开源的方式提供多类优质模型,开发者可在平台上免费体验与下载使用,达摩院等率先向社区贡献300多个经过验证的优质AI模型,超过三分之一为中文模型,全面开源开放。魔搭上汇集了行业领先的预训练模型,减少开发者的重复研发成本。阿里在魔搭平台上也开放了自己的专业数据集,赋能第三方用户的模型训练。用户在魔搭上可以实现:1)免费使用平台提供的预训练模型,支持免费下载运行;2)一行命令实现模型预测,简单快速验证模型效果;3)用自己的数据对模型进行调优,定制自己的个性化模型;4)学习系统性的知识,结合实训,有效提升模型研发能力。 图表5:阿里魔搭(ModelScope)社区 未来有望在智能办公、应用开发、智能家居等领域落地应用。 办公领域:通义千问大模型有望助力工作者在办公中实现文件快速撰写、邮件智能预览并快速回复等功能,有望和阿里钉钉深度融合,提供新一代智能办公工具。 应用开发:传统上在钉钉中可以利用钉钉搭功能,通过低代码模板或工具轻松搭建应用,IT人员可以提升开发效率,快速解决业务问题;未来若和通义千问融合,则有望从低代码走向语言代码,更进一步降低应用开发成本,赋能应用开发。 智能家居:AIOS时代,智能助理将进入各种应用场景,大模型具备通用性,可以直接或是经过微调后应用于各个领域,在插件生态下,大模型的地位将类似现在的操作系统,同时也是未来流量、用户、数据等的核心入口,智能助理的能力也将渗透到方方面面。现在我们要制定一个旅游计划,需要自己搜索攻略,查询交通工具和酒店的信息,并经过一系列手动操作下单,基于大模型的智能助理可以直接通过语音分析我们的需求,检索网络信息,为我们做出建议,然后帮助我们操作下单。伴随着AI技术进步,有望助力智能家居产品渗透率提升,而其中智能音响是重要抓手。当前,智能音箱已完成初轮用户普及,成为AIoT的重要端口。在大模型能力加持下,智能音箱能作为智能家居的管家,通过理解用户意图,调动其它设备比如电视,空调,灯和扫地机器人等,助力智能家居实现多场景之间相互配合,而实际上,这方面产业也在快速进展:2023/4/4,up主差评硬件部在B站上开放内测了搭载了阿里大模型的智能音响的全网首测,视频中的天猫精灵表现出众,具备智能化、人性化的交互能力,展望未来有望深入生活的方方面面,有希望成为真正的AI智能助手。 图表6:搭载了阿里大模型的智能音响的全网首测视频 2、通义千问测评:国内一线,积极追赶 我们通过十道问答题,考察了阿里通义千问的能力,对比百度文心一言、chatGPT(GPT3.5)以及Newbing(GPT4+搜索)在逻辑、计算、文字创作等方面的能力。从对比测评结果来看,通义千问已经具备一定基础常识与初步的逻辑思考能力,但在复杂理科计算方面仍有提升空间;文字创作领域,已经具备相当的实用性,尤其在涉及语言翻译的领域表现较为出色。总的来说,当前虽然没有达到GPT4的水平,但和国内模型相比却可圈可点,处于国内领军水平。 以下是测评具体过程,每题中最优秀的答案以蓝色加粗标出,次优解(若有)以紫色标出: 2.1逻辑能力考察:已具备初步逻辑思维能力,但应对复杂理科问题上仍有提升空间 问题1.为什么爸妈结婚没有叫我参加婚礼? 从回答来看,通义千问和文心一言都识别出了这一问题中的逻辑悖论,给出了较合理的答案。相比之下,ChatGPT和NewBing则没有理解题意,给出的答案是错误的。 图表7:问题1.为什么爸妈结婚没有叫我参加婚礼? 问题2.陨石为什么每次都能精准砸到陨石坑? 同样是逻辑诡辩问题,这一题中NewBing(GPT4)最精准地辨识出了逻辑的关键点,并给出正确解答。通义千问给出的是次优解(强于文心一言和ChatGPT),“这是因为陨石坑是由陨石或其他天体撞击地球表面时所产生的地形”一句是符合逻辑的,但上下文略显似是而非。 图表8:问题2.陨石为什么每次都能精准砸到陨石坑? 问题3.如果父母以后的钱都是留给我的,那我是不是能认为,他们现在正在花我的钱? 本题为逻辑问题,同时掺杂一定的道德标准测试成分。从回答来看,四个模型回答都是合理的,其中Newbing的回答相对最通顺、最有人情味。国产大模型中,通义千问的回答相比文心一言更优,主要由于文心一言的回答“父母留给子女的钱,属于父母的财产,与子女没有关系,子女没有使用父母财产的权利。”与现实情况一定程度相悖。 图表9:问题3.如果父母以后的钱都是留给我的,那我是不是能认为,他们现在正在花我的钱? 问题4.鸡兔同笼,上有40个头,下有100只脚,请问有多少只鸡?多少只兔? 正确答案为30只鸡和10只兔,本题为客观题,有且仅有ChatGPT答对了。 图表10:问题4.鸡兔同笼,上有40个头,下有100只脚,请问有多少只鸡?多少只兔? 2.2文字创作能力:已经具备实用性,翻译能力可圈可点 问题5.请把以下诗句翻译成英文:“飞流直下三千尺,疑是银河落九天” 本题翻译得最好的是NewBing,本意、细节与格式都正确;通义千问次之,遗失了一些细节但格式与大意都大体正确。文心一言格式有误(诗句不需要每个单词都首字母大写),并且对“飞流”的翻译不够准确;ChatGPT的翻译中银河一词错误,并且关于本诗的题目输出有误(本诗为李白的《望庐山瀑布》)。 图表11:问题5.请把以下诗句翻译成英文:“飞流直下三千尺,疑是银河落九天” 问题6.请把以下诗句翻译成英文:“春风又绿江南岸,明月何时照我还?” 本题NewBing和通义千问回答相对最优,因为他们成功翻译出了诗句中“还”(return)这个关键动词,而文心一言和ChatGPT都没有正确理解本诗句的含义,因而漏掉了关键点。 图表12:问题6.请把以下诗句翻译成英文:“春风又绿江南岸,明月何时照我还?” 问题7.请以“江南的清晨”为主题写一首诗,并押韵 本题有且仅有文心一言表现最佳,因为只有文心一言完成了押韵要求(甚至符合律诗3、7两句可不押韵的惯例)。不过,无论是通义千问、chatGPT还是NewBing,都已表现出一定的诗句创作能