深度赋大能模保术业白皮书 (2024) 阳光保险集团股份有限公司清华大学五道口金融学院中国保险学会 科大讯飞股份有限公司 2024年10月 PREFACE 前言 在人类科技发展的历史洪流中,2023年无疑是大模型技术取得突破性进展的元年。ChatGPT的问世,如同一颗石子投入平静的湖面,激起了全球科技领域的滔天巨浪。它不仅深刻改变了人机交互的方式,更预示着一个由大模型引领的智能新时代的到来。比尔·盖茨的赞誉、马斯克的断言以及马化腾的深刻洞察,都从不同角度揭示了大模型技术对于人类社会发展的深远影响。而国家网信办等七部门联合发布的《生成式人工智能服务管理暂行办法》,则为中国大模型技术的健康发展提供了坚实的政策保障和合规框架。 在保险行业,这一技术革命同样引发了深刻的变革。国内外众多保险公司和保险科技公司,如阳光、人保、平安、国寿、泰康、瑞再、安盛、安联等,纷纷投身于大模型技术的研发与应用,积极探索其在保险业务中的无限可能。阳光保险集团作为行业的先行者和探索者,于2023年初率先启动了“阳光正言GPT大模型战略工程”,旨在通过大模型技术的深度应用,推动保险业务模式的重塑与升级。 经过一年的实践与沉淀,可以看到,2024年是大模型技术在各行各业的应用落地之年。这一年,我们见证了大模型技术从理论探索走向实际应用,从概念验证进入规模化部署的关键阶段。因此,本年度《大模型技术深度赋能保险行业白皮书》的编写,不仅是对过去一年技术发展的总结与回顾,更是对未来应用前景的展望与规划,旨在为保险行业的智能化转型提供技术参考和实践建议。 白皮书基于阳光保险的大模型落地实践经验,深入剖析了大模型技术在保险行业的落地应用路线。我们详细阐述了数据准备、模型精调、工程化适配、模型评测等关键环节的技术要点和注意事项,为行业同仁提供理论指导和操作建议。除此之外,成功的落地应用需要保险公司和科技公司紧密合作,共同构建开放、共享、协同的创新生态。这些内容为保险行业探索大模型技术的应用提供了宝贵的经验和启示。 在优秀案例展示部分,白皮书通过一系列具有代表性的案例,充分展示了大模型技术在保险行业的广泛应用场景和显著价值。这些案例涵盖了客户服务、理赔定损、营销推广、承保核保等多个方面,它们充分证明了大模型技术在提升服务效率、优化客户体验、降低运营成本、增强风险管理能力等方面的巨大潜力,为保险行业的智能化转型提供了有力的实践支撑。 更重要的是,我们深刻认识到大模型技术与保险行业的深度融合,不仅将推动保险业务模式的深刻变革,还将重塑保险行业的竞争格局和生态体系。通过精准预知风险、主动管理风险,大模型技术将助力保险公司实现从“粗放预测”向“精准预知”、从“等量管理”向“减量管理”的转型升级。这一转变不仅将提升保险公司的核心竞争力,还将为消费者提供更加个性化、高效、便捷的保险服务,推动保险行业向更高质量、更高效率、更高附加值的方向发展。 在全球金融格局深刻调整、中国经济高质量发展的背景下,保险业作为国民经济的重要支柱和风险管理的重要力量,必须紧跟时代步伐,把握科技革命的历史机遇。我们希望通过本白皮书的发布,为保险业做好科技金融和数字金融两篇大文章提供有力支持,推动保险行业从科技赋能向科技引领的转变。同时,我们也呼吁行业同仁和合作伙伴加强交流与合作,共同推动科技保险和数字保险的发展,共创保险行业的美好未来! 最后,我们要诚挚感谢所有参与白皮书编写的专家学者、行业同仁和技术伙伴。正是大家的共同努力和无私奉献,才使得这本白皮书得以顺利问世。我们将继续秉持开放、合作、创新的精神,与各界携手共进,共同书写保险行业智能化转型的新篇章! 目CO录NTENTS 1.引言9 1.1大模型技术近一年的发展演变9 1.1.1数据:多措并举缓解短缺状态10 1.1.2算力:单芯片算力达新高,国产化初具规模12 1.1.3模型:多模态崛起,端侧模型影响未来终端应用14 1.1.4应用:日益广泛深入,多领域齐头并举17 1.2大模型技术在保险行业的应用现状及成效21 1.2.1应用现状21 1.2.2应用成效23 1.2.3面临挑战25 2.战略视野与行业篇27 2.1全球保险行业的发展趋势27 2.1.1保险业面临前所未有的挑战27 2.1.2数智化转型是解决之道及不二选择28 2.2国内外相关政策分析30 2.2.1国内政策密集出台30 2.2.2国际政策与影响34 2.3保险业数智化转型进展35 2.3.1保险业数智化转型是一个全方位多层级的渐进过程36 2.3.2保险业数智化转型进展37 3.保险业落地实践篇43 3.1大模型落地路线43 3.1.1落地路线方法论43 3.1.2关键环节及技术45 3.2保险垂直领域大模型构建及评测52 3.2.1保险垂直领域模型构建52 3.2.2保险垂直领域大模型评测体系56 4.大模型安全风险与治理篇63 4.1综合治理措施65 4.2训练数据66 4.2.1安全风险66 4.2.2治理措施67 4.3算法模型68 4.3.1安全风险68 4.3.2治理措施69 4.4系统平台70 4.4.1安全风险70 4.4.2治理措施70 4.5业务应用71 4.5.1安全风险71 4.5.2治理措施72 4.6伦理与合规73 4.6.1安全风险73 4.6.2治理措施74 5.场景应用与效果篇75 5.1大模型优秀应用案例‒国内篇77 5.1.1阳光保险77 5.1.2中国人保81 5.1.3中国人寿82 5.1.4平安保险93 5.1.5泰康养老97 5.1.6中国太保99 5.1.7华农保险104 5.1.8众安保险113 5.1.9信美相互人寿114 5.1.10元保121 5.1.11中科万国123 5.1.12香港富卫集团126 5.2大模型优秀应用案例‒国际篇127 5.2.1瑞士再保险127 5.2.2安盛集团128 5.2.3安联集团129 5.2.4丘博保险130 5.2.5怡安保险131 5.2.6第一生命131 5.2.7好事达保险132 5.2.8奥斯卡健康132 5.2.9考贝尔133 6.未来展望与建议篇135 6.1大模型应用趋势135 6.1.1应用模式:由Chatbot向AIAgent演进135 6.1.2应用场景:由非决策类场景向决策类场景过渡135 6.1.3多模态大模型:落地应用潜力巨大136 6.1.4大模型与小模型:互相补充,协同合作137 6.1.5AI代理:推动行业生产力智能升级138 6.2行业实践建议139 6.2.1明确应用场景与目标139 6.2.2多因素考虑选择落地技术路线141 6.2.3分阶段实施与长期持续优化142 6.2.4关注政策导向与合规要求143 6.2.5加强数据安全和隐私保护144 6.2.6强化技术合作与生态建设145 图TA目B录LEOFCONTENTS 图1图2图3图4图5图6图7图8图9图10图11 图12 大模型产业图谱9 保险业大模型应用成效初现22 国内人工智能政策30 阳光正言GPT技术架构图53 S-Eval评测体系架构图59 S-Eval评测方法示意图60 S-Eval评测层级61 大模型安全风险与治理措施总览64 应用案例全景图76 智能客服机器人技术架构图79 养老陪伴机器人功能示意图80 国寿投资大模型应用中台83 图13国寿投资GPT86 图14图15图16图17图18图19图20图21图22图23图24图25图26图27图28 国寿知识检索87 太保“搭台”与“唱戏”101 太保项目建设蓝图101 太保项目总体技术框架102 车险出单“星驰”系统107 企微运维机器人108 华农保险大模型微调效果111 众安AIGC中台-众有灵犀113 信美大模型保险垂直应用演进117 信美大模型应用方案118 基于信美Chat-Trust3.0的知识助手119 中科万国大模型平台体系123 中科万国大模型数据建设124 中科万国大模型应用案例124 中科万国大模型应用方案125 1.引言 1.1大模型技术近一年的发展演变 2023年被誉为“大模型元年”,在这一年里,中国见证了超过200个大模型的竞相涌现,正式拉开了“百模大战”的序幕。这一年标志着大模型技术的飞跃式发展,行业格局与趋势瞬息万变,整个领域经历了前所未有的百花齐放与创新浪潮。 图1大模型产业图谱 资料来源:集微咨询(JWInsights)整理绘制,本图谱仅列举全球典型企业及相关大模型,排名不分先后 大模型技术在数据积累、算力支撑、模型精进及应用拓展四大维度上,均实现了显著突破。合成数据的应用,有效克服了现实世界数据在获取难度、规模限制及多样性不足等方面的挑战;图形处理单元(GPU)和张量处理单元(TPU)等高性能计算硬件的飞速发展,为算力提升提供了强有力的保障;多模态模型的突破性进展,打破了传统人工智能(AI)技术界限,实现了信息处理能力的全面升级;视频生成模型的显著进步,更是让创意与想象在数字世界中自由翱翔;而混合专家系统(MoE)架构的广泛应用,则进一步提升了模型的灵活性与效率。此外,开源模型的不断涌现,不仅加速了技术的普及与应用,也为全球开发者共同推动AI技术的进步搭建了广阔的舞台。 1.1.1数据:多措并举缓解短缺状态 (1)合成数据成有力补充 大模型训练数据通常来自网络获取数据、外部付费/开源数据集、企业自有数据以及AI合成数据。大模型训练和微调所需数据量快速增长,真实世界数据将在数年内被用尽。研究机构Epoch估计,机器学习可能会在2026年前耗尽所有“高质量语言数据”。据Gartner预测,2024年用于训练AI的数据中有60%将是合成数据。以Meta今年7月发布的LLaMA3.1模型为例,监督微调环节的数据里有相当比例是合成数据,使用合成数据确实带来了模型效果的提升。 高质量的真实数据已逐渐无法满足大模型训练与精细微调的需要,这促使合成数据作为真实数据的重要补充,在人工智能领域扮演着日益关键的角色。合成数据作为算法、生成模型及模拟技术的产物,能够模仿现实世界数据的特征与模式,为大模型的训练与优化提供丰富的数据资源。 以AlphaGeometry项目为例,该项目通过生成高达一亿个精准合成的数据点,为解决复杂几何问题提供了强大的数据支撑,展现了合成数据在特定领域应用的巨大潜力。DeepSeekMath项目则充分利用深度学习技术的优势,创造性地生成了包含多种难度级别与问题类型的复杂数学题目及其解答。这一举措不仅丰富了合成数据的维度,还显著提升了模型在处理复杂数学问题时的性能表现,尤其是在深化对数学概念的理解与应用能力上,更是展现出卓越的成效。 合成数据的应用,不仅有效克服了现实世界数据在获取难度、规模限制及多样性不足等方面的挑战,更为开发出更加健壮、可靠且公平的大模型奠定了坚实基础。具体而言,合成数据尤其适用于那些数据稀缺或难以直接获取的特定领域。此外,合成数据还能根据具体需求进行定制化设计,如确保不同类别数据的平衡表示,进一步提升模型的泛化能力。同时,合成数据还有助于缓解数据隐私保护的压力,通过创建匿名化或去标识化的数据集,为数据的安全共享与高效利用提供了保障。 然而,值得注意的是,尽管合成数据展现出巨大的应用潜力与优势,但其发展与应用仍面临着一系列挑战。其中,确保合成数据的真实性与保真度是首要问题,因为基于虚假或带有偏见的合成数据训练的模型,在真实世界场景中的表现将大打折扣。此外,合成数据的设计与验证环节也需高度重视,以避免因设计不当或验证不足而放大原有偏见或引入新的偏见,从而影响模型的公正性与准确性。因此,在未来的发展中,需持续加强合成数据的生成技术、验证机制及质量控制等方面的研究与实践,以充分发挥其潜力,推动大模型技术的持续进步与发展。 (2)多领域开源数据集相继推出 当前,在开源数据资源的版图中,中文语料的占比显著偏低,尚不足总量的十分之一,这凸显了中文自然语言处理领域对高质量数据资源的迫切需求。为应对此