商汤权威专家分享大模型的下一站-多 模态、交互与应用20240530_1_智能速览2024年06月01日01:32 关键词 大模型多模态交互应用商汤科技林达华教授GPTOpenAINIPS计算机视觉 开源体系技术迭代商业价值应用落地技术积累数据积累模型能力用户体验装修价格搜索 全文摘要 近期,大模型领域经历了若干关键的发展趋势,其中最引人注目的包括模型基础能力的不断提升、核心能力的革新,以及多模态大模型的应用突破。这些进步不仅体现在技术层面,比如模型性能的超越和成本的降低,也表现在商业模式上,显示出强大的技术迭代能力和商业价值潜力。随着核心技术能力的增强,多模态大模型成为推动跨行业创新的重要力量,尤其是在体育、医疗和娱乐等领域。尽管多模态大模型的技术实施相对简单,但是要达到高质量、高性能的标准仍面临极大挑战。此外,大模型的应用也引发了关于其知识局限性、时效性和知识更新重要性的讨论。为了提升用户体验并确保商业竞争力,业界正在探索通过引入实时信息和不断迭代来改进模型的方法。同时,评测大模型的能力已成为一项挑战,需要综合考量多个维度。在国内外,已经有一些机构和组织通过客观和主观评测,为大模型提供能力评估。商汤科技等企业也取得了重要的技术进展,包括模型推理能力的提升、多模态模型的研发成功,以及在端侧技术方面的突破。未来的重点发展方向之一是通过更大规模的训练数据和技术手段来实现更加复杂的思维链合成。总体来看,大模型技术正处于快速发展之中,预计将在多个领域发挥重要作用,同时也面临着算法降本、模型更新等方面的挑战。 章节速览 ●00:00大模型发展新趋势:基础能力增强与应用落地□近期大模型领域呈现数个重要发展 趋势:模型基础能力持续进步,核心能力的升级是技术革命基石;国际领先机构如OpenAI不断 推出新模型,提升基础能力同时降低成本,增加性价比;国内企业紧追国际先进水平,部分模型性能已超越GPT3.5,展现出强大的技术迭代能力和商业价值潜力。 ●07:51多模态大模型:未来应用与挑战□随着核心技术能力的提升,多模态大模型成为2024年的应用亮点,标志着从单一文本处理到多元媒体融合的重大转变。这一趋势促进了各行业的创新与发展,尤其是在体育、医疗和娱乐等领域。尽管多模态大模型的技术原理相对简单,即通过扩展输入端接受多种类型的数据并进行向量化处理后,利用Transformer模型计算得出结果 ,但实现高质量、高性能的模型却极具挑战性。此外,将这些先进模型成功应用于商业领域,需考虑模型能力、用户体验及成本效益等因素,确保产品的市场竞争力。 ●16:36模型与用户体验:探索大模型的实际应用及其挑战□在讨论大模型的应用及其限制 时,指出大模型虽然具有强大的处理能力,但其知识基础有限,对于近期发生的社会事件可能无法做 出反应。这强调了模型的时效性和知识更新的重要性。同时,介绍了通过引 入实时信息和不断迭代以改善用户体验的方法。此外,还探讨了大模型在处理大量文档信息、进行情绪交流等方面的应用潜力,并强调了提供实际价值给用户是产品成功的关键。 ●24:50大模型评测:实力与应用的双重考量□大模型因其强大的通用性和能够处理多种任 务的能力而备受关注。然而,如何准确评估其能力成为一个挑战。评测大模型通常涉及复杂的多维度考量,并非简单的题目测试所能全面反映。在国内,针对中文场景的两大评测机构——SuperCrew和OpenCanPass,通过客观和主观评测,提供了权威的模型能力评估。某机 构凭借其出色的表现,在评测中超越了国内外的多项模型,特别是在中文语境下的表现尤为突出。这不仅展现了该机构大模型的强大实力,也凸显了其在AI基础设施上的投入与优势,能够支持自身及客户的持续研究与开发需求。 ●33:58推动大模型技术进步与应用□团队介绍了当前在大模型领域的成就,包括模型能力 达到领先水平并与OpenAI进行对比。重点讨论了未来的发展路径,如通过最新的训练数据和技术手段实现大规模的思维链合成,并预示了即将发布的多模态模型Pro版本的强大功能。此外,探 讨了模型的多维度应用潜力,以及如何利用模型的自我进化能力来解决更复杂的问题,展示了对未来科技发展的积极展望。 ●41:11提升推理能力与多模态模型研究□本月在推理能力和多模态模型方面取得重要进展 。首先,推理能力通过引入更大的模型规模实现了显著提升,特别是在处理复杂的逻辑问题时表现突出。此进步得益于有效地结合了思维电子和代码解析技术,并通过构建反思模型来验证思维链的正确性,进一步优化了推理过程。此外,团队也在探索如何使模型具备多模态推理能力,通过分析图像和文本等多种形式的信息,深入理解其背后的深层含义,超越现有的技术水平。 ●46:39商汤科技最新进展与未来展望□商汤科技近期取得多项重要进展,包括文档解析能 力的迭代优化,模型速度超越行业领先竞品,以及端侧大模型的研发成功。用户量在发布V5大模型后快速增长,且得到了积极的用户反馈。未来计划对标GD4O,专注于提升核心能力和实时交互体验,同时致力于深化模型融合,以实现更深层次的人机交互。 ●55:10模型自我进化与合成数据的重要性□模型的自我进化依赖于达到一定的临界点,这 需要满足多种条件,其中包括强大的合成数据能力和高级的推理能力。模型初始阶段需借助外部数据进行学习,但随着能力提升,应转向自我探索和优化,通过反复试验和错误修正实现自我成长。此外 ,反思和选择正确的路径对于加速自我进化过程至关重要。最终目标是构建一个能高效迭代并持续增强自身能力的系统。 ●01:00:32大模型技术的发展与应用前景□大模型的基础能力被比作地基,其技术能力 在整理和分析大量信息、提供专业价值以及理解并响应用户情绪等方面特别突出。未来,大模型将在金融、医疗、日常生活等多个领域发挥重要作用,不仅服务于B端市场,也能满足C端用户的需求。合成数据在提升模型能力方面将扮演重要角色,预计未来大部分数据将由模型自动生成,而少量的人 类专家提供的数据将作为引导和参考。 ●01:07:40探讨大模型降本及算力分配策略 目前大模型未见显著降价,但算法降本趋势显现,来源于如MME、lowrap等技术。单一模型 年降本空间有限,技术进步降低了推理成本但程度有限。厂商通过技术创新及市场策略抢占先机,重视端云协同及边缘计算,以减少计算压力并提高效率。公司需维持对大模型的持续研发投入,形成正向财务循环,支持业务发展。 ●01:13:25探讨端侧模型的发展与应用□端侧模型展现优异性能,促进产业变革。智能 手机制造商如苹果推出模型支持动作拆解和规划、高效UI录入等,标志着端侧技术的进步。此外,通过与手机厂商合作,端侧模型已应用于提高生产力和消费价值,例如智能文本生成,助力用户快速分享生活点滴。未来,随着产品迭代和更多应用场景探索,端侧模型的潜力将进一步释放。讨论还涉及了AIPC关注度上升,强调了端侧模型与云模型协同工作的重要性,并指出AI计算效能和GPU性能是终端AI的关键。中文大模型训练中,适当的语料比例(约20%)可优化模型性能,而模 型的质量远比比例更为重要。最后,提出了评测的严谨性建议,确保公平性和准确性。问答回顾 发言人问:今天我们邀请到了商汤科技的林达华教授,他是如何加入商汤科技并担任人工智能基础设施及大模型首席科学家的? 发言人答:林达华教授是商汤科技联合创始人,自2020年起担任人工智能基础设施及大模型首席科学家,负责公司在这两个领域的技术布局与研发规划。 发言人问:林达华教授在学术界和产业界的成就和贡献有哪些? 发言人答:林教授是香港中文大学长聘副教授、MMlab主任、人工智能交叉学科研究所所长,同时兼任上海人工智能实验室领军科学家。他还是IEEE大模型标准工作组主席,曾获得AI领域权威会议NIPS的lab在github上获得超过10万星标,书生系列开源模型多次登顶国际开源大模型榜单。 发言人问:在本次会议中,林达华教授将分享哪些关于大模型发展的新进展?大模型领域在过去的几个月中有哪些关键的发展事件? 发言人□答:林教授将在本次会议中分享商汤科技在大模型领域的多个发展趋势,重点关注模型基础能力持续进步、多模态融合成为关键趋势以及商业变现能力的提升。在过去一个月,大模型赛道发生了多个重要事件,如OpenAI的多模态大模型在权威评测中首次超越GPT3.5,以及头部大 模型公司迅速追赶并相继达到GPT3.5以上的水平。 发言人问:林达华教授如何看待今年在大模型赛道上的商业价值? 发言人答:林教授坚信2024年将成为大模型应用落地的大年,基于新核心能力的提升,许多大模型应用将在各行各业开花结果,并且多模态融合将成为技术竞争的焦点。 发言人问:多模态大模型相较于单一语言模型有何优势?为何多模态大模型的研发和商业化进程较 为困难? 发言人□答:多模态大模型能更全面地理解信息输入,从而在各种工作场景和实际应用中发挥更大作用,是未来大模型发展必经之路。尽管多模态大模型的基本原理相对简单,但将模型做到高质量、高性能的水平非常困难,需要大量资源和技术积累,这也是衡量一个公司技术底蕴的重要指标。 发言人问:多模态大模型的基本原理是什么? 发言人□答:多模态大模型是在传统语言模型的基础上,将图像、视频、音频等非文本信息转化为token序列,并通过transformers计算得到输出结果的技术架构。 发言人问:模型能力对于大模型应用的重要性是什么?模型能力的提升和信息来源是否会影响产品的体验? 发言人□答:模型能力是大模型应用的基础基石,它决定了应用能否提供良好的用户体验。就像建高楼需要坚实的地基一样,大模型的核心能力是产品能够提供有价值服务的基础。然而,即使模型能力很强,如果无法解决特定问题,比如获取最新社会热点信息,最终也无法满足用户需求。模型能力的提升能够增强产品的整体功能,但模型是否能及时获取相关知识是影响用户体验的关键因素之一。此外,信息来源也至关重要,例如实时新闻资讯等大量材料的处理需要模型具备较强的文档解析能力和交互能力。在产品研发过程中,这些技术细节的打磨对于提升用户体验具有重要意义。 发言人问:大模型在交互方式上的创新对用户体验有何影响? 发言人答:OpenAI等公司在大模型交互方式上实现了迭代式提升,从传统的回合制交互转变为 类似实时对话的流式交互。这种实时响应的交互体验显著提升了用户感知到的交互速度和流畅度,特别是在情感交互和实时陪伴等toc产品方向上,为用户带来了全新的体验感受。 发言人问:大模型评测的重要性及当前评测机构的情况如何? 发言人□答:大模型评测是一个具有挑战性的任务,因为大模型能力的评测维度众多。虽然有很多线上评测方式,如基于题目测试模型表现,但这些评测往往只能反映模型能力的冰山一角。因此,专业权威的评测机构在中文大模型领域扮演着重要角色,例如超级评测和OpenCommonBenchmark。这些机构会定期更新题库,并邀请参与者测试模型,以提供更全面、客观的模型能 力评价。 发言人问:大模型测试维度包含哪些方面?测试结果如何? 发言人□答:这个测试维度涵盖了逻辑推理、代码工具使用、百科知识、长文本理解、角色扮演、真诚创作以及安全等多个方面,是一个非常全面且完整的模型能力评测体系。测试结果显示,我们的模型达到了80分,超过了之前版本,甚至超过了主题four在不同版本中的得分,这说明我们的模 型在各方面能力上都有显著提升。 发言人问:超级流评测在主观和客观评测中的表现如何? 发言人答:主观评测中,我们的模型排名第一名,超过了其他同类模型,如TFO。而在客观评测上 ,我们的模型以微小差距紧随其后,超越了flow并达到了GPT-four、GPT-four □ball最新版本在10月9日的水平。 发言人问:模型能力提升对估值的影响是什么? 发言人□答:我们的模型能力已经达到国际一线水平,并且由于其基础能力强大,这使得我们的估值变得非常有竞争力,比国外多家大模型机构的估值还要高。 发言人问:大庄子