人工智能技术发展与应用实践 DeepSeek公司概况 •DeepSeek是私募量化巨头幻方量化旗下的一家大模型企业,成立于2023年5月份。•幻方量化营收:作为中国头部量化对冲基金,曾管理资金规模超160亿美元(2019年),年管理费收入超过3亿美元。 DeepSeek-V3 DeepSeek-V3(对标GPT-4o)于2024年12月26日推出,因其显著的性能,用户迅速开始增长 •Deepseek-V3仍是基于Transformer架构的模型,是一个强大的混合专家(MoE)模型,总共有671B个参数,生成每个token时激活37B参数 •训练成本比Llama 405B低一个量级 •DeepSeek-V3所采用的技术: •MLA多头潜在注意力机制(降低显存占用)•MTP多token预测(提升效果、提升推理速度)•FP8混合精度训练、DualPipe流水线、MoE负载均衡(提升训练效率,降低训练成本) DeepSeek-R1 DeepSeek-R1(对标GPT-o1)于2025年1月20日推出,随后DeepSeek进一步出圈 •R1推出后,追平GPT-o1,迅速出圈海外。从DeepSeek在美国下载排名从1月22日的201名,迅速在1月27日登顶第一名;截止1月30日,DeepSeek在168个国家位居下载榜第一名 •DeepSeek-R1-Zero:一种通过大规模强化学习(RL)训练的模型,没有监督微调(SFT)作为初步步骤,展示了卓越的推理能力。通过强化学习,R1-Zero自然而然地出现了许多强大而有趣的推理行为;但是,遇到了可读性差和语言混合等挑战 •DeepSeek-R1:为了解决这些问题并进一步提高推理性能,DeepSeek团队引入了R1,它在RL之前结合了多阶段训练和少量冷启动数据。R1在推理任务上实现了与OpenAI-o1-1217相当的性能 DeepSeek模型效果(1/2):世界最顶尖模型的对比 nDeepSeek-V3和R1进入到国际顶尖模型行列 nDeepSeek-R1是综合效果最好的开源模型,排在众多优秀的开源和闭源模型前面 nQwen2.5-Max、GLM-4-Plus、Step-2-16K-Exp等国产模型也有不俗的表现 DeepSeek模型效果(2/2) nDeepSeek-V3和R1相对于700亿以下开源模型(以千问720亿为代表),,扩充了其能力边界 nDeepSeek-R1引入能力,在代码、数学、复杂规划等方面的能力显著增强,使得对于新场景的支持成为可能 DeepSeek不同版本对比 nR1蒸馏版vs.R1满血版:在数学、代码等场景下的性能有明显差距,蒸馏版参数量越小,与满血版差距越大 nR1蒸馏版vs.V3满血版:140亿以上参数的R1蒸馏版的深度推理效果显著强于V3满血版;低参数量R1蒸馏版能力落后于V3 DeepSeek出圈原因分析 1.DeepSeek-R1的卓越性能表现 2.DeepSeek-V3的超低训练开销 OpenAI奥特曼:“DeepSeek是一个令人印象深刻的模型,但我们相信我们会继续开拓前沿并推出出色的产品,所以很高兴能有另一个竞争对手。” Meta扎克伯格:“DeepSeek技术非常先进。这是一场差距很小的竞争。”虽然DeepSeek已证明研发AI所需的资金和算力比之前预想的要少,但Meta不会因此减少AI支出:“我仍然认为,从长远来看,大力投入资本支出和基础设施建设将成为一种战略优势。”卷积神经网络之父YannLeCun:“与其说中国AI正在追赶美国,不如说开源模型正在超越闭源”。 Anthropic CEO达里奥·阿莫迪:我认为一个公平的说法是“DeepSeek生产的模型接近7-10个月前美国模型的性能,成本要低得多(但远不及人们建议的比例)” Scale AI创始人亚历山大·王:“DeepSeek可能改变中美在人工智能竞赛中的格局” 游戏科学创始人冯骥:”DeepSeek,可能是个国运级别的科技成果。”“如果有一个AI大模型做到以下任何一条,都是超级了不起的成就,但DeepSeek全部同时做到了:强大、便宜、开源、免费、联网、本土” -8-面壁智能首席科学家刘知远:“DeepSeek的意义更像Llama。DeepSeekR1相当于是像2023年初的OpenAIChatGPT一样,让所有人真正地感受到了震撼” DeepSeek影响:门槛全面降低,千行百业加速融AI DS作为一款现象级应用,对全社会开展了一次人工智能科普再教育,DSC端应用人人装,人人感受人工智能,政府、企业管理者认识到人工智能战略意义,由探索尝试,升级为战略布局,市场进入爆发期 DS上线20日,日活超4000万,已达到ChatGPT74%,成为C端现象级应用。微信、钉钉等头部应用纷纷接入 截至2月15日,全国10省省委书记将人工智能作为新春第一会重点部署,B端大模型应用进一步加速 DeepSeek影响:格局被打乱,AI竞争进入第二阶段 DS开源策略全面冲击基础模型商业模式,将大厂在C端、B端过去一年构建的技术优势拉回同一起跑线,市场竞争从一阶段比拼模型能力,进入比拼应用、数据、工程化交付能力的第二阶段 C端AI应用市场格局重构,新入局者迎来机遇 B端客户全面评估DS影响,重新论证基础模型选型 DS国内登顶、全球仅次于GPT,月均活跃用户数跃居第一,全球全端DAU近1.2亿;纳米AI搜索(原360)将其核心模型换为DS1月web端访问量登顶、APP端增速位列第2 •某机构接国家FGW通知,全面评估DS影响,组织专题论证会,重新评估基础模型选型,由原某公司大模型为主,转为吸纳多家模型,重点引入DS •山东省委书记于开年第一天工作会上,明确部署省数据局研究DS,研究人工智能 •某央企董事长在开年第一天即召集全管理层会议,开展AI全面赋能生产运营工作部署 •中石油、中石化、南网、星网、中广核、中铝等央国企均在拥抱对接或重新研判 中美在AI领域的对比:人才与技术 n我国高端人才的数量和密度跟美国有明显差距n我国AI领域重大原创性成果的数量落后于美国 中美在AI领域的对比:企业 n中美头部高科技企业的市值差距非常显著 n我国AI独角兽的数量和估值落后于美国 n美国7大科技公司市值:均在万亿美元以上,合计约18万亿美元n中国7大科技公司市值:第一名5600亿美元,合计约1.4万亿美元 中美在AI领域的对比:GPU芯片 n美国企业在GPU芯片领域占据绝对优势,尤其英伟达芯片性能高、生态成熟n国产芯片近几年进步很快,但在性能、产能、软件适配和生态方面还有显著差距 美 中 l英伟达:拥有A100、H100、B200等GPU芯片,性能和稳定性遥遥领先,又有CUDA生态加持,在AI芯片市场牢牢占据主导地位lAMD:MI300系列lGoogle: TPUlGroq:高性能AI推理芯片l博通:在ASIC(专用集成电路)定制芯片领域表现突出,2024年市值突破万亿美元 l华为:昇腾系列芯片,产品性能和销量国内领先,910B性能对标A100l其它国产芯片厂商:海光、寒武纪、燧原科技、沐曦、天数智芯、摩尔线程、壁仞科技、昆仑芯科技、阿里平头哥等 中美在AI领域的对比:头部大模型 n在模型效果上,中国大大缩小了与美国的差距,呈现与美国平分秋色的格局 n模型开源领域:DeepSeek超越Meta,成为效果最好的开源模型,阿里巴巴千问系列模型下载量超过Meta的Llama系列 DeepSeek对中美科技竞争产生深刻影响 中:突破技术封锁,在大模型这个关键赛道上与美国的差距无限缩小,信心增强,科技股崛起美:发现在模型的技术创新上已经被中国追赶并部分超越,危机感和压力陡然增加,预计会加大对华技术封锁(更严格的芯片禁令等) 美国上升到影响国家安全,拟进一步收紧对华芯片政策 美参议员提出《2025年美国与中国人工智能能力脱钩法案》,有脱钩风险 •特朗普:“DeepSeek的技术进步为美国敲响了警钟” 2025年1月29日,美国参议员Josh Hawley提出《2025年美国与中国人工智能能力脱钩法案》,旨在全面切断中美在人工智能(AI)领域的技术合作、资本流动,以遏制中国在AI领域的竞争力,保护美国技术优势 •美国新任白宫新闻秘书卡罗琳·莱维特:“白宫正在努力确保美国人工智能的主导地位,美国国家安全委员会正对DeepSeek开展国家安全调查” •美国商务部长提名人霍华德·卢特尼克:指责DeepSeek抄袭美国科技公司并违反美国芯片出口禁令来建立其模型。“我们需要停止帮助他们。Meta的开放平台(开源模型Llama)让DeepSeek依赖它。他们购买了大量英伟达的芯片,并找到了自己的方法,推动了他们的DeepSeek模型。这种情况必须结束。” ①AI技术与知识产权流动禁令:法案禁止从中国进口或向中国出口任何与AI相关的技术或知识产权,包括芯片(GPU、CPU等)、存储设备、操作系统、云计算服务等核心硬件和软件,以及版权、专利、商业秘密等知识产权。 ②AI研发合作全面禁止:美国公民、绿卡持有者及机构不得在中国境内从事AI研发,也不得与中国的“受关注实体”(包括高校、企业、政府机构等)及其海外子公司合作。 •美国商务部工业与安全局BIS启动对新加坡芯片转口贸易调查,核查HS8542类目芯片是否违规流向DeepSeek,拟议对华禁售H20芯片 ③对华AI投资彻底切断:禁止美国个人或机构投资中国AI企业的公开股票和证券,防止资金间接支持中国AI发展。 •美国国会、得州、NASA、美国海军、美国国防部已禁止使用deepseek。 ④处罚措施:刑事处罚:个人最高罚款100万美元、监禁20年;企业罚款1亿美元,并取消联邦合同及许可证。民事赔偿:违规者需支付三倍损失赔偿及诉讼费用,并可能被禁止获得联邦资助5年。驱逐出境:违者可能被驱逐出境(非美国公民)或面临高额罚款 •Anthropic CEO达里奥·阿莫迪:对于DeepSeek的崛起,美国应该加强管制 ⑤针对DeepSeek的特别禁令,使用或下载中国AI公司DeepSeek的产品将被视为犯罪,最高判20年监禁。 国内主流大模型 国内外主流大模型工具/应用 大模型赋能政务热线应用 n联通数智公司联合辽宁产互等打造政务热线大模型,已落地辽宁、北京等多省市12345项目 政务热线大模型 全面上线辽宁省热线平台:服务80+坐席人员,工单填单时间由186s/单下降到133s/单;工单记录完整度提升30%在热点事件分析场景:处理90余万张工单,完成12万个小区数据抽取,形成供水、供电、供热等6类单位画像热线数据报告:围绕投诉、求助、建议与举报信息开展时空定位、问题萃取、颗粒缩放、精细诊断等多维度分析,输出周期报告和专题报告 大模型辅助政府经济决策 经济运行大模型落地北京发改委、广东政数局等多省市项目 北京发改委AI经济运行监测分析应用 2023年10月,服务北京发改委面向经济领域数据查询及分析、报告撰写、经济领域知识问答等业务场景,实施经济大模型,打造“学文件、读数据、出观点、快呈现”的高效AI工具,赋能经济运行调度工作,人工智能辅助经济决策;打造国内首个经济数据分析智能体和区域经济分析智能体。 广东政数局”粤经济“平台 “粤经济”全面打通了横向30多个厅局和纵向21个地市的经济运行相关数据,实现全省经济发展分析”一屏总览”;元景—经济大模型在“粤经济”上部署实施,发挥联通多源大数据的独特优势,基于全国高质量经济语料,打造经济垂直领域大模型,模型在查数据、问知识、做推理、快分析等经济领域任务中都表现良好。 大模型赋能公安智能化 n联通数智公司联合北京联通等打造元景公安大模型,在北京西城、安徽省厅等多省市视侦智能化升级项目试点应用 利用以图搜图、以文搜图,检索监控内容,提升办案效率 在北京西城区公安局试点,提供以特征搜特