您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:腾讯云行业大模型及智能应用技术峰会纪要–20230619 - 发现报告
当前位置:首页/会议纪要/报告详情/

腾讯云行业大模型及智能应用技术峰会纪要–20230619

2023-06-19未知机构更***
腾讯云行业大模型及智能应用技术峰会纪要–20230619

一、开场 主讲人:汤道生腾讯集团高级执行副总裁,云与智慧产业事业群CEO 目前通用大模型已经用在一些环节,比如客服营销环节,为业务经营带来更多降本增效。但是在具体企业场景中可能通用大模型还没办法很好使用,比如不一定懂行业专业术语,不了解企业内部独特情况,回答会比较虚/笼统,偶尔会胡说八道,信息也不及时。如何在使用大模型同时保护企业数据产权和隐私,降低大模型使用成本?下面是关于大语言模型在产业落地的思考。 一、开场 主讲人:汤道生腾讯集团高级执行副总裁,云与智慧产业事业群CEO 目前通用大模型已经用在一些环节,比如客服营销环节,为业务经营带来更多降本增效。但是在具体企业场景中可能通用大模型还没办法很好使用,比如不一定懂行业专业术语,不了解企业内部独特情况,回答会比较虚/笼统,偶尔会胡说八道,信息也不及时。如何在使用大模型同时保护企业数据产权和隐私,降低大模型使用成本?下面是关于大语言模型在产业落地的思考。 (一)模型 通用大模型不是唯一服务方式,也不一定是最优解。基于广泛的公开文献和网络的信息去训练,但网上的信息可能会有错误,有谣言,甚至有偏见,许多专业的知识与行业数据的积累并不足,导致大模型的行业针对性与精准度并不够,数据噪音过大,但很多企业场景中用户对企业提供的专业服务要求高,容错率低,企业一旦提供错误信息,可能会成大巨大法律责任和公关危机。因此企业使用的大模式也必须可控可追溯、可修正,而且必须要反复与充分测试才能上线。要有行业针对的大模型+企业自己的数据训练/精调才能打造实用性更高的智能服务。企业需要在某个场景中解决某个问题,而不是在100个场景中解决70%-80%问题。另外模型越大训练推理成本越高,大部分企业场景也不需要通用AI,因此在什么样场景下选择使用模型很重要。 今天我们公布腾讯云MAAS,基于TI平台打造行业精选模型商店,覆盖金融、文旅、政务、传媒、教育等10大行业,提供超过50个解决方案,在这些能力模型基础上,客户加上自己数据就可以生成专属模型。比如我们和国内头部在线旅游公司,基于文旅大模型打造了机器人客服,自动判断在客户意图,自动调用API高质量完成客户咨询和服务。如果客户问节假日有哪些经济旅游景点,基于通用大模型客服机器人只能回答简单内容,我们用大量针对性行业数据训练微调出来的客服机器人可以更加细致,规划出每天交通路线和景点安排,给出经济实惠的定制化方案。 (二)数据 数据是大模型的原材料。针对具体的场景,相关数据的覆盖与质量都是至关重要的。标注数据的管理是模型迭代中非常重要的工作,模型最终在真实的场景落地,如果想要达到理想的服务效果,往往就需要把企业自身的数据用起来。在模型研发的过程中,需要关注敏感数据的保护、关注安全合规,也需要管理好大量的数据与标签,不断的测试与迭代模型。因此,我们推出了基于腾讯云TI平台的行业大模型的精调解决方案,帮助模型开发者与算法工程师一站式地解决数据处理问题,高效率、高品质、低成本地去创建与使用大模型。我们也可以通过TI平台以及模型私有化的部署、权限管控、数据加密等方式,让企业用户在打造与使用大模型的时候更放心。 最近我们携手中央电视台打造了央视人工智能开放平台,期间面临数据量庞大、形态复杂等各种问题,导致传统的数据标签体系无法达标。我们重新构建了一套传媒专属的数据标签体系,同时也研发了创新的标签权重的体系,让数据标签颗粒度更细,并按照熟悉度来排序。在数据标签体系的支撑下,视频编辑用自然语言就能够跨模态去检索,比如输入居民的消费力,系统就可以提供商场、超市相关的素材,再搭配智能剪辑就能够快速生成视频。 (三)应用 腾讯自身的企业级应用已经率先应用了行业大模型,针对不同的应用场景提供了更智能的服务,也为用户提高了工作效率。例如,腾讯会议即将推出的覆盖会议全场流程场景的智能小助手,可以通过简单的自然语言指令,协助用户进行日程的安排、会管、会控等一系列的操作,会后还可以自动生成智能总结摘要,并能够基于人工智能的能力,帮助用户高效地回顾,提升用户开会与信息流转的效率。 新一代的腾讯企点智能客服,基于行业模型,结合客户业务的需求进行训练和精调。客服机器人可以提供更精准、更详细的回答,对比上一代智能客服机器机械的回答,用户体验有很大的提升。在企点分析平台上,销售人员只要问一句,哪个产品卖的最好,就可以实现准确的商业分析,不需要花费大量的时间学习复杂的软件;通过腾讯云新一代的AI代码助手,程序员也可以快速、高品质地完成代码的补充纠错与解释,覆盖编码、评审、测试等不同的场景。 (四)算力 算力是模型持续运转的基础。高性能、高弹性与高稳定的算力,需要非常专业的云服务;在大模型的训练与使用过程中,需要大量的异构算力来支持,对于网络速度与稳定性要求也非常高。另外,GPU服务器会比一般的服务器稳定性更低一些,服务器的运营与分层次的排查也会更频繁,整体运维的难度与工作量也会高很多。 例如,在训练集群中,一旦网络有波动,训练的速度就会大受影响,只要一台服务器过热、宕机,整个集群都可能要停下来,然后训练的任务要重启,这些事件会使得训练的时间大大增加,所以投入在大模型的成本也会变大。 因此,腾讯云所提供的稳定计算、高速网络与专业的运维,可以为算法工程师大大减轻设备运维的压力,让他们把精力放在模型的构建与算法的优化上。 腾讯云也打造了面向模型训练的新一代HCC(High-performanceComputingCluster)高性能的计算集群,搭载最新的GPU,结合多重加速的高性能存储系统,加上高带宽、低延时的网络传输,整体性能比过去提升了三倍,获得了很多客户的高度认可,几家大模型的独角兽也都在与我们展开算力的合作。 除了计算集群的硬实力,今天我们也推出更适合AI计算的软能力——向量数据库。它能够更高效地处理图像,处理向量、音频以及文本等非结构化的数据,支持单索引引入10亿级规模,比单机插件式的检索规模提升了10倍,数据介入AI的效率也比传统的方案提升了10倍。 二、腾讯云MaaS主讲人:吴运声 在依托腾讯云的高性能计算行业大模型能力,以及我们多年以来深耕产业互联网积累的行业经验。我们希望为客户和伙伴打造一站式的行业大公司行业大模型精选商店,加速大模型在产业领域的创新实践。大模型驱动的智慧有限,产业场景已经成为了最佳奠定层,在智能问答、内容创作、智能决策、智能风控等等很多的业务场景,都具有非常广泛的应用价值。如何将大模型快速的应用到自己的业务场景中,怎么样才能够在新一轮的技术浪潮中掉队呢?对于很多企业而言,想要用大模型,面临着不少的挑战。 1、计算资源少。大模式的训练和推理对于计算资源和存储资源有着很高的要求。对于很多客户来说门槛太高。 2、数据质量差,构建大模型是成本极高的系统工程,大模型需要大量的高质量的数据来进行训练,数据还必须经过清洗和预处理,数据质量差的 话,就会导致模型的效果以及训练的效率都没有办法得到保障。 3、投入成本高。为了确保业务使用的效果,我们需要投入大量的数据和计算资源来进行训练,还需要持续的进行调试和优化。 4、专业经验上,大模型的部署需要考虑到计算资源、网络带宽等等各个方面的问题。大模型的开发和落地需要很多的技术和人力资源。 5、安全合规。依托于腾讯云大模型高性能计算集群和行业大模型的能力,我们通过腾讯云TI平台面向客户全面输出了MASS能力,可以满足客户模型预训练、模型精调、智能应用开发等等多样化的需求。腾讯云TI平台行业大模型精调解决方案,具备完整的大模型精调工具点,支持客户加入自己独有的场景数据进行训练。客户可以根据自己的业务场景要求,定制不同参数,不同规格的专属模型。在过去的一段时间里面,我们已经携手一些行业的头部企业,探索了多个行业大模型的应用场景。 案例:端午节出游建议通用版本: 接入文旅客服部的API接口后的文旅行业客服场景大模型 腾讯云TI平台行业大模型精调解决方案具有四大优势,首先我们包括了高质量的行业大模型,第二我们有完善的平台工具,成熟的流程方法,全面的配套服务,可以为客户提供从模型选择到落地部署的一站式的服务。 首先基于腾讯云多年深耕产业互联网的经验,腾讯云TI平台内置了多个高质量的行业大模型,涵盖金融、传媒、文旅、政务、工业等等多个的行业场景,同时我们开放支持客户多模型的训练任务,满足个性化的需求,比如针对客户产品中的相似问生成等等这些任务,我们都有比较好的优化,使用时只需要少量的训练数据,就可以达到比较好的精调效果。 其次TI平台提供了完善的大模型工具点,包括数据标注、训练、评估、测试和部署全套的工具,具备强大的多机多卡训练和加速,客户可以快速在 TI平台上进行一站式的大模型精调。 大模型训练算力是基础。腾讯云在大模型算力方面有领先优势,在今年4月份,腾讯云就发布了面向大模型训练的新一代HTTP高性能计算集群,采用最新一代腾讯云自研服务器,结合多层架构的高性能系统存储,具备3.2Tbps,业界最高互联带宽,算力性能提升三倍。 全新升级框架加速能力,太极angle可以提供更优的训练和推理加速能力。在传统的基于CVNLP算法模型的基础之上,我们新增了对大模型的训练和推理的加工能力,通过异步调度优化、显存优化、计算优化这些方式,相比行业常用的方案,我们的性能提升可以超过30%,同时支持更适合AI运算的向量,将帮助我们更高效的处理图像、音频、文本这些非结构化数据,我们可以支持日处理千亿级的检索,将为客户模型训练提供充沛动力。 针对成本高落地难的问题,腾讯云TI实现针对行业场景的低成本落地。在少量算力的基础上,提升特定任务的效果。比如智能客服场景,我们的训练性能可以提升10倍,训练成本下降90%。我们沉淀行业大模型全生命周期一体化的完整方法,覆盖模型选择、训练共建、部署应用全面的流程来保障客户需求的顺利交付。 在配套的服务方面,腾讯云提供本地化的训练落地和陪跑的优化,助力客户早期落地。将来针对客户需求,我们提供私有化部署、公有云托管多种灵活的通讯方案,助力企业快速创建和部署AI应用。大模型的应用,安全合规是前提,腾讯在这方面拥有成熟的技术积累和经验,在问题侧、模型侧、答案侧从三个层面进行敏感性的过滤和规避,让最终的答案符合安全合规的要求。同时依托腾讯多年安全经验和天宇大数据能力,我们提供AIGC全链路内容合规解决方案。确保大模型可信、可靠、可用,行业大模型和AI助手的结合可以快速提升对话理解和智能问答的能力。 比如我们在学习的汽车产品的数据之后,车载的语言助手可以根据车辆的状态、用户的状态、历史的数据,这些信息主动的触达和场景运营,提供更加人性化的场地服务。前段时间我们推出了腾讯云数字人工厂,内置超过10个AI算法模型,腾讯云化服务能力可以让数智人分身的复刻缩短至24小时,大大的降低成本。 在文旅领域我们也联合了一家线上OTA公司,共同探索的文旅行业大模型的应用,他们传统的智能客服需要人工进行闭环配置,知识维护量非常大,耗时也很强。如果是涉及订单这些复杂的业务场景,在没有配置的这种情况下,传统的智能客服是没有办法闭环的解决问题的,跟我们合作之后,我们在客户的场景下面做了精调后的专属模型,这个模型就可以在不需要配置对话流程,就可以实现端到端,解决客户的业务问题,提升任务的完成率,降低整体的成本。 在金融领域我们也探索了OCR大模型,在银行单位的处理过程中,我们发现了它起到了很大的作用。传统的OCR在深度学习模型里面是不具备阅读理解和推理能力的,模型的指标上限比较低,不同场景下模型的能力没有办法复制,定制成本相对来讲是比较高的。我们联合了一个头部银行,基于我们的OCR大模型,上线了4类票据的自动化事件,信息录入的准确率提升了50%。 在行业大模型的标准体系方面,我们正在联合中国信通院共同构建行业大模型的标准体系和能力架构,包括一套IOMAUTH方法论和60多项的能力建设指标,这个标准体系覆盖了多个行业,涵盖模型行业能力模型、工程化性能模