中泰证券研究所专业领先深度诚信 证券研究报告 DeepSeek银行部署加速,AI金融应用迎来跃迁 20250313 分析师:闻学臣 执业证书编号:S0740519090007 分析师:王雪晴 执业证书编号:S0740524120003 分析师:苏仪 执业证书编号:S0740520060001 联系人:蒋丹 Email:jiangdanztscomcn 目录 CONTENTSONTE 中泰所 领先深度 1 DeepSeek开源、低成本、强推理助推银行业应用 性能:后训练阶段大规模应用强化学习,表现推理能力扩展 DeepSeek模型在PostTrain阶段大规模应用了强化学习方法。R1使用了冷启动大规模强化学习方法,R1Zero版本模型使用纯强化学习方法。随训练过程推进,模型展现出了推理能力的扩展(高准确率和longCoT能力涌现等)。 图表:随步数提升R1Zero的AIME任务准确度 图表:深度思考能力提升 DeepSeekR1Zero的能力随步数提升DeepSeekR1Zero自然涌现longCoT能力 资料来源:DeepSeekR1IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning,中泰证券研究所 资料来源:DeepSeekR1IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning,中泰证券研究所 DeepSeek通过优化训练方法显著降低了算力消耗,使其在大规模数据处理中的成本更具优势。它在MoE架构的基础上,通过多头潜注意力机制(MultiHeadLatentAttention,MLA)进行优化;在后训练阶段采用冷启动大规模强化学习方式,不再使用传统SFT做大规模监督微调,甚至绕过了一些CUDA,采用PTX汇编来提升能力;在推理场景下通过大规模跨节点专家并行(ExpertParallelism,EP)来优化通信开销,尽可能实现负载均衡。 图表:DeepSeekR1架构图 资料来源:DeepSeek,中泰证券研究所 图表:DeepSeekR1训练方法 资料来源:木尧,中泰证券研究所 以DeepSeekR1为代表的优秀开源模型的能力离闭源模型越来越近。行业普遍认为如果开源软件达到闭源80以上能力,就足以压缩闭源的生存空间。DeepSeek能力能够比肩OpenAIo1,开源使各行业机构能够轻松获取前沿模型能力,且可直接进行私有化部署或商业化开发。 图表:DeepSeekDAU快速增长 资料来源:AI产品榜,中泰证券研究所 图表:闭源模型与开源模型的差距正在缩小 资料来源:EpochAI,中泰证券研究所 DeepSeek理论成本利润率极高,成本还有优化空间。通过优化,能够在白天负荷高的时候,用所有节点部署推理服务。晚上负荷低的时候,减少推理节点,以用来做研究和训练。以2025年2月2728日数据为例,DeepSeekV3和R1推理服务占用节点总和,峰值占用为278个节点,平均占用22675个节点(每个节点为8个H800GPU)。假定GPU租赁成本为2美金小时,总成本为87072天。如果所有tokens全部按照DeepSeekR1的定价计算,理论上一天的总收入为562027,成本利润率545。 图表:DeepSeek服务负荷统计 资料来源:DeepSeek,中泰证券研究所 图表:DeepSeekR1成本与理论收入 资料来源:DeepSeek,中泰证券研究所 阿里近期开源的QwQ32B模型基于320亿参数规模,在数学推理、代码生成及通用任务中表现亮眼,综合性能对标DeepSeekR1(6710亿参数,激活量370亿)。该模型大幅降低部署成本,支持在消费级显卡(如英伟达RTX4090)上本地运行,满足快速响应及数据安全需求。同时,QwQ32B集成智能体(Agent)能力,可调用工具并基于环境反馈调整推理逻辑,为定制化AI方案提供基础。 图表:QwQ32B模型表现 资料来源:阿里,中泰证券研究所 通过将DeepSeekR1的推理能力蒸馏到更小的模型中,较小的模型也能具备强大的推理能力。DeepSeek开源了从15亿到700亿参数的R1蒸馏版本。这些模型基于Qwen和Llama等架构蒸馏,表明复杂的推理能力可以被封装在更小、更高效的模型中。从论文结论看,蒸馏比单独依赖强化学习训练更为高效,且蒸馏与强化学习的结合可以进一步提升模型性能。 2025年2月,科学家李飞飞团队带领以不到50美元的费用训练了一个能力比肩DeepSeekR1的s1模型,也展现了蒸馏模 型的更多应用潜力。 图表:s1表现出的TesttimeScaling 模型展现出随推理时间增加准确度增加的TesttimeScaling 图表:各模型微调示例数与准确度对比 S1仅使用1000个微调示例就达到了类似r1的准确度 资料来源:s1Simpletesttimescaling,中泰证券研究所资料来源:s1Simpletesttimescaling,中泰证券研究所 DeepSeek可以通过API接口或者数据中台架构,实现与传统银行技术系统的数据交互,从而实现各类业务高效高质的无缝对接,有望释放海量私域数据价值。PostTrain阶段大规模强化学习的训练方法使模型拥有了更强的自主推理能力,不再依赖传统提示工程。根据DeepSeek的官方使用指南,在使用模型时不建议添加系统提示(systemprompt),而是所有指令都应当包含在用户提示(userprompt)中。这也显示出了模型通用推理能力在应用中的扩展。 图表:大模型数据类型 PostTrain阶段 资料来源:中泰证券研究所 JanusPro结合了优化的训练策略,扩展了训练数据集和模型规模。通过这些改进,JanusPro在多模态理解和文本到图像的指令跟踪功能方面都取得了重大进步,同时还增强了文本到图像生成的稳定性。 作为在GenEval等评测中超越DALLE3和StableDiffusion3Medium的开源模型,JanusPro也展现出了更多应用潜力。 图表:JanusPro多模态理解和视觉生成表现 资料来源:JanusProUnifiedMultimodalUnderstandingandGenerationwithDataandModelScaling,中泰证券研究所 目录 CONTENTSONTE 中泰所 领先深度 2 理解金融应用的“降本增效价值创造决策赋能”三个层次 我们认为金融行业人工智能的应用价值大体可以分为三个层次:降本增效,价值创造与决策赋能。其中当下应用最广泛的是降本增效,即AI对简单人力的替代,具体场景可能包括智能客服、简单的办公文件问答与内容生成等。随着模型能力提升将展现真正的价值创造能力,即AI对高价值人力的赋能,具体场景可能包括办公Agent、营销、Coding等;随着AI分析能力进一步提升,将能够为决策层直接赋能,提升决策效率和精确度。 图表:金融行业AI应用的三个层次 资料来源:中泰证券研究所 降本增效场景通常基于大模型的生成能力,进行人力替代或赋能,在银行业AI应用场景中落地最早。 商业银行主要通过人工客服和智能客服两种方式为客户提供咨询服务。人工客服工作强度高、处理和响应时间相对较长,而当下智能客服难以覆盖全部服务场景。如工商银行在远程银行业务中将知识搜索与大模型生成能力结合,实现基于实时通话向坐席人员主动推送答复话术或知识的能力。 图表:苏商银行大模型客服助手 资料来源:苏商银行、中泰证券研究所 在传统银行信贷审批过程中,贷前调查、审批、放款以及贷后管理等诸多环节,均高度依赖人工操作,导致整个流程十分复杂且效率低下。DeepSeek为银行信贷审批注入新动力,助力审批流程实现智能化与自动化。 苏商银行应用DeepSeekVL2多模态模型,通过构建“多模态技术混合专家框架”的创新体系,实现对嵌套表格、影 像资料等复杂场景材料的精准解析,将信贷材料综合识别准确率提升至97以上,信贷审核全流程效率提升了20。 图表:苏商银行AI布局 资料来源:苏商银行公众号,中泰证券研究所15 在银行的日常运营中,处理海量的合同、报表等文档是一项繁琐且易出错的任务,传统人工审核方式效率低下,难以满足业务需求。DeepSeekVL2等多模态模型具备高精度的文档解析能力,能够提取文档中的关键信息,高效完成合同质检、条款比对等工作,大幅提升工作效率与准确性。 江苏银行已成功本地化部署微调DeepSeekVL2多模态模型、轻量DeepSeekR1推理模型,分别运用于智能合同质检和自动化估值对账场景中。 图表:江苏银行AI布局 资料来源:上海证券报,搜狐,中泰证券研究所 AICoding能够替代低效工作,充分释放开发者的价值。未来可能会由AI承担部分基础工作,而开发者则转向更高层次的架构设计和业务规划,专注于更复杂、更创造性的任务,如架构设计、算法优化或用户体验创新。 AI编程在银行业可有效赋能内部研发。从具体用例看,澳新银行对1000名软件开发人员进行了为期六周的AI编程助手试用实验。实验发现,当软件开发人员使用AI编程助手时,平均生产率提高42,代码质量提高12。开发人员的工作满意度也显著提高。 图表:AI编程为软件开发带来的影响图表:澳新银行AI编程对生产力的提升 45 40 35 30 25 20 15 10 5 0 BeginnerIntermediateAdvanced 60 50 40 30 20 10 0 控制组平均用时(分钟)Copilot组平均用时(分钟)生产力提升 资料来源:《采用AI编程助手,发展新质生产力》、中泰证券研究所资料来源:《采用AI编程助手,发展新质生产力》、中泰证券研究所 风控管理是银行业务经营的的核心任务之一,DeepSeek拥有卓越的推理能力,能够助力银行显著提升风险识别的效率与准确性,快速剖析风险因素并生成详尽的分析报告,全面增强银行的风险管控能力。 重庆农村商业银行借助腾讯云大模型知识引擎的能力,率先在企业微信上线基于DeepSeek模型的智能助手应用“AI小渝”,成为全国首批接入DeepSeek大模型应用的金融机构,也是首家通过知识引擎构建基于DeepSeek的联网应用的金融机构。重庆农村商业银行将利用DeepSeek的模型能力,结合实时联网搜索以及RAG能力,动态识别欺诈行为,提升风险预警精准度。 苏商银行通过深度融合DeepSeek系列模型技术,构建“数据算法算力场景”四位一体的智能决策体系,该体系已成功应用于信贷风控、反欺诈监测等20余个业务场景,尽调报告生成效率提升40,欺诈风险标签准确率提升35,构建起覆盖贷前、贷中、贷后的全生命周期智能风控网络。 智能营销助手:依托知识图谱与大模型的协同合作,银行能够精准捕捉客户信息,量身定制个性化营销策略,精准触达客户,显著提升营销效果。 目前多家银行已利用DeepSeek布局智能营销场景。北京银行启动“allinAI”战略,并已部署DeepSeek系列模型,在 业务应用方面,北京银行利用大模型技术已在营销等场景落地应用。 图表:大模型精准营销 大多数商业银行的决策模式主要依赖经验以及基于规则的系统,数据价值的挖掘和释放空间较大。OpenAI的DeepResearch功能支持查找、分析和综合数百个在线资源,以研究分析师的水平创建综合报告。随着相关模型能力上限持续提升,决策层可应用DeepSeek深度挖掘和分析内外部数据,并为管理和决策赋能。 图表:Deepresearch示例 在生成式人工智能落地应用中大行发力更早。六大国有银行大力投入大模型技术体系研发的同时多场景探索大模型应用,实现客服、办公、研发、运营等多个业务领域的应用创新。中小银行则多以单场景切入,探索智能客服、智慧办公等