中国大模型行研能力年中评测(二):AI助力,渗透千行百业20241010_导读 2024年10月10日18:38 关键词 大模型行业能力评测方法论商汤腾讯会员通义千问行业研究信息检索逻辑推理报告撰写能力行业技术能力产业链市场规模竞争格局角色扮演意图理解总结提炼算法优化分析条理 全文摘要 本期节目深入分析了大模型行业的评测方法,包括能力评测的方法论和实施步骤,展示了综合评测结果,并讨论了行业报告撰写的基本情况。16个大模型参与评测,通过人评和机评的双盲模式确保公平性,内容覆盖报告撰写、行业研究和理解能力。评测显示,商汤、腾讯会员、通义千问等模型表现突出。 中国大模型行研能力年中评测(二):AI助力,渗透千行百业20241010_导读 2024年10月10日18:38 关键词 大模型行业能力评测方法论商汤腾讯会员通义千问行业研究信息检索逻辑推理报告撰写能力行业技术能力产业链市场规模竞争格局角色扮演意图理解总结提炼算法优化分析条理 全文摘要 本期节目深入分析了大模型行业的评测方法,包括能力评测的方法论和实施步骤,展示了综合评测结果,并讨论了行业报告撰写的基本情况。16个大模型参与评测,通过人评和机评的双盲模式确保公平性,内容覆盖报告撰写、行业研究和理解能力。评测显示,商汤、腾讯会员、通义千问等模型表现突出。特别关注了报告撰写、信息检索和逻辑推理能力,商汤、日新、阿里通义千问和灵异万物表现优异。商汤通义千问在逻辑推理和信息检索上表现特别出色,显示出高阶知识能力和复杂信息处理能力。商汤V5.5版本在文本生成方面表现出强大的能力,无论是长度还是质量均保持高水平。此外,对17个行业的10款大模型进行了详细分析,发现各模型在不同行业中的表现有显著差异,体现了模型在特定行业的适应性和能力。评测揭示了模型擅长的行业与其公司背景的行业关联性,为理解大模型的行业适应性和未来发展方向提供了依据。 章节速览 ●00:00深入探讨大模型行业评测方法与表现 本期节目继续关注大模型行业的评测方法,详细分析了行业能力评测的方法论和实施方法。同时,展示了整体评测结果,并对行业报告撰写的基本表现进行了讨论。投保研究院持续关注市场发展,提供专业的行业报告和咨询服务,包括市场地位调研等。为更深入理解,将分专题探讨不同行业内的表现。 ●01:41大模型测评报告 本次测评包含了16个大模型,通过人评和机评的双盲模式,以确保评测的公平性。测评内容包括报告撰写能力、 行业研究基础能力以及行业基础理解能力。评测结果显示,商汤、腾讯会员、通义千问等模型表现突出,位于前列。测评特别关注了大模型在报告撰写上的表现,考察其在定义分类、发展历程等八个模块的撰写能力,以传统报告方法论为基准,评估大模型的产出质量。 ●04:23大模型评测报告 评测了大模型在信息检索和逻辑推理两层的能力。信息检索层包括定义分类、发展历程和政策分析,侧重于准确信息的检索与整理。逻辑推理层涉及产业链市场规模特征、竞争格局等,需要模型具备更深入的推理能力。评测结果显示,商汤日新、阿里通义千问和灵异万物在报告撰写能力上表现突出,通义千问和商汤在八个模块的表现相对稳定,而灵异万物在信息检测层表现较好,但在逻辑推理层稍逊。 ●07:49大模型在逻辑推理和信息检索中的表现 根据对大模型的分析,商汤通义千问和360智能在逻辑推理层表现突出,展现出高阶知识能力。而在信息检索层,360智脑通义千问和百川智能等模型表现出色,特别是在产业链分析和市场规模预测方面,显示了对复杂信息的准确抓取和逻辑推理能力。 ●10:47商汤模型在行业研报撰写中表现突出 商汤模型在行业研报撰写领域展现出卓越表现,特别是在竞争格局和行业技术能力方面,日新和360等模型紧随其后。商汤模型能够精准定位中国市场前五或前十的企业,展现出了优秀的报告撰写能力。在行业特征分析方面,商汤、日新、360和智脑表现突出,体现了在提取行业特征和洞见方面的高超技能。此外,商汤在逻辑推理和意图理解方面也取得了显著成绩,为其整体排名提供了强有力的支持。 ●17:05商汤V5.5在文本生成能力评测中表现优异 评测结果显示,商汤科技的V5.5版本在生成较长文本时展现了强大的能力,不仅速度较快,而且文本质量在增长时依然保持高水平,不逊色于较短文本。这表明商汤V5.5在处理不同长度文本任务时,能确保高质量输出,提高了分析师的工作效率和数据处理能力。 ●19:00大模型知识储备与应用能力评估 评估了豆包、商汤深度求索、天工通义、千问、文心一言等大模型在知识储备、信息提炼、角色扮演等方面的能力,发现这些模型在知识抓取和应用上有了显著进步,尤其在获取和探索资料方面表现突出。此外,商汤日新、腾讯会员豆包在信息浓缩提炼方面,以及腾讯混元、文心一言、商汤日日新在角色扮演方面均表现优秀,有助于提升工作效率和文本产出质量。 ●23:05大模型行业能力评测结果分享 本次评测详细分析了17个行业的10款大模型的表现,覆盖了从采矿到教育等多个领域,展示了不同模型在特定行 业的逻辑信息理解和深度。评测结果显示,各模型在不同行业中的表现存在显著差异,如讯飞在教育、星火在电信与娱乐表现优异,商汤则在房地产和泛娱乐电商上表现良好。文心一言在泛娱乐和旅游业表现出色。通义和豆包则在多个行业上表现均衡。评测还揭示了模型擅长的行业与其公司背景的行业关联性,为理解大模型的行业适应性和未来发展方向提供了依据。 问答回顾 发言人问:上一期我们介绍了大模型行业能力评测的哪些内容?本期投报的你读研报栏目将讨论哪些内容? 发言人答:上一期我们主要讲解了大模型行业能力评测的方法论逻辑、测评方法,并展示了整体总榜结果。本期将深入探讨大模型行业能力评测的细分内容,包括行业研报撰写、不同行业表现以及行业报告撰写中的基本表现,并分享相关的专业报告和咨询服务信息。 发言人问:本次测评包含了多少个大模型?测评方法是什么样的?测评结果显示哪些模型在整体测评中表现较好? 发言人答:本次测评包含16个大模型,采用人评和机评相结合的方式进行双盲评测,确保测评结果公平公正。商汤、腾讯会员通义千问等模型在整体测评中表现靠前,其他梯队还包括讯飞、星火等。 发言人问:报告撰写能力测评中,大模型的表现如何划分?报告撰写能力评测的综合结果如何呈现? 发言人答:报告撰写能力测评分为信息检索层和逻辑推理层,其中信息检索层主要考察大模型在定义分类、发展历程和政策分析等方面的互联网信息检索能力;逻辑推理层则考察大模型综合分析和逻辑推断能力。综合结果以热力图形式展示,颜色深浅代表得分高低,前三甲分别是商汤日新、阿里通义千问和灵异万物。其中,商汤和通义千问在八个模块的整体表现稳定,而灵异万物在信息检索层表现优秀,但在逻辑推理层稍逊。 发言人问:在逻辑推理层的表现上,有哪些模型表现突出? 发言人答:逻辑推理层表现突出的模型包括商汤、通义千问和360智能,这些模型具备从基础信息中提炼深层逻辑关系的能力。 发言人问:在信息检索层中,大模型的平均分情况如何,相比逻辑推理层有何差异?信息检索层中哪些模型表现突出? 发言人答:在信息检索层,大模型的平均分为9.17分,相较于逻辑推理层的8.69分高出0.5个分数点。这表明在信息检索层对大模型的要求相对较低,其平均速度总得分也更高。在信息检索层,360智脑通义千问和百川智能表现突出,他们在知识向量库匹配、分类、发展历程、PE等方面有较好的优化,能更准确、快速地摘取符合行业认知的信息。 发言人问:逻辑推理层上,哪些模型在产业链分析方面表现领先? 发言人答:产业链分析是逻辑推理层中的难点,商汤、通义千问和灵异万物模型在这一部分表现较为领先。它们不仅需要准确定义产业,并能分析产业链内的企业关系及其互相影响。 发言人问:市场规模预测方面,哪些模型表现较好? 发言人答:01万物、质朴、基月星辰以及通义千问在市场规模预测上表现优秀。主要挑战在于不仅要准确搜索市场规模资料,更要具备测算标准界限的能力,以及对未来市场规模变化的分析和预测能力。 发言人问:竞争格局分析中,哪些模型表现出色? 发言人答:商汤、质朴勤奋和深度求索在竞争格局分析板块表现突出,其中商汤日新大模型凭借精准的企业定位优势,在科技、金融和医疗等行业研报撰写中表现优异,显著拉开与其他模型差距。 发言人问:行业特征提炼中,哪些模型领先? 发言人答:商汤、日新、360智脑在行业特征提炼上表现出色,他们不仅能够提炼出行业特征,还能深入洞察行业发展,为行业研究报告提供高质量的洞见和见解,得分较高。 发言人问:行业技术能力评估中,有哪些模型综合表现优秀? 发言人答:商汤、腾讯混元和文心一言在行业基础能力(角色扮演、逻辑推理、意图理解、长文本知识储备和总结提炼)评估中综合表现良好。其中,商汤在长文本知识储备得分显著领先,腾讯在逻辑推理和意图理解方面表现出色,而文心一言在角色扮演和意图理解方面表现优秀。 发言人问:在大模型评测中,商汤日新在哪些方面表现突出? 发言人答:商汤日新在评测中展现了出色的能力,尤其是在文字长度方面,能够在单次问题中产出高质量且长度较长的答案。其模型在输出长文本时,内容与短文本相比保持了逻辑和内容质量不显著下滑,并且具有高效的文本生成速度和处理不同长度文本的灵活性。此外,在行业评测中,商汤日新还展示了在知识储备、总结提炼和角色扮演等方面的优势。 发言人问:本次大模型评测主要针对哪些能力进行评估? 发言人答:本次评测主要考察了大模型在多个关键能力上的表现,包括文本生成速度与质量、吃储备(即底层知识储备能力)、总结提炼以及角色扮演。其中,商汤日新、豆包、腾讯会员等模型在这些细分领域均表现出色,能够帮助分析师提升工作效率和文本产出质量。 发言人问:行业理解能力在本次评测中的具体表现如何? 发言人答:行业理解能力方面,不同的模型在针对不同行业的逻辑信息理解、逻辑推理以及行业深度理解上表现各异。例如,讯飞、星火在教育行业表现出色,商汤在房地产、泛娱乐电商行业能力强,而文心一言在泛娱乐业和旅游业中表现出色。同时,模型所擅长的行业与其背后公司擅长的赛道存在一定关联性,如百度文心一言因爱奇艺等流媒体优势,在泛娱乐业和旅游业方面表现优秀。整体而言,不同模型在各行业中的表现差异显著,体现了其在行业理解能力上的差异性。