软件电信教育:关于AI陪伴和AI应用的一些观察思考Deepseek影响评述20250310导读2025年03月11日1843 关键词 deepthickV3R1genus性价比performanceGPT4anthropicscalinglawdancingDFC系列长推理模型OEAI搜索泡沫孕育创新副文本简单逻辑lowhangingfruit阿里千问精选 全文摘要 本次讨论集中于DeepMind发布的多项技术及其对行业的深远影响。首先,团队讨论了对新年的期待以及技术展示的需求。随后,重点介绍了V3和R1模型系列,强调了这些模型的高效性与低成本,特别是V3模型因其高性价比而受到广泛关注。 软件电信教育:关于AI陪伴和AI应用的一些观察思考Deepseek影响评述20250310导读2025年03月11日1843 关键词 deepthickV3R1genus性价比performanceGPT4anthropicscalinglawdancingDFC系列长推理模型OEAI搜索泡沫孕育创新副文本简单逻辑lowhangingfruit阿里千问精选 全文摘要 本次讨论集中于DeepMind发布的多项技术及其对行业的深远影响。首先,团队讨论了对新年的期待以及技术展示的需求。随后,重点介绍了V3和R1模型系列,强调了这些模型的高效性与低成本,特别是V3模型因其高性价比而受到广泛关注。讨论还涉及了AI负责任发展的观点,以及模型性能随时间优化的趋势。对于R1系列模型,比较了其与GPT4的性能,并探讨了模型在全球的应用,包括AI搜索的兴起。讨论还涵盖了模型开源的重要性,以及中国企业在AI领域创新和潜力的展现,如何通过开源模型促进技术进步和应用开发。最后,对话强调了DeepMind模型的应用潜力、对未来技术创新的影响,以及模型开源对于促进全球AI发展的重要性,突显了中国企业在这一进程中的角色和机遇。整体上,这次对话展示了DeepMind在AI领域的领先地位及其对行业发展的积极贡献。 章节速览 0000大模型DeepThickV3与R1的性能及市场影响 最近,DeepThick发布了三个系列的模型,包括V3和R1,其中V3因其高性价比受到广泛关注。V3在性能和推理成本方面表现优秀,代表了极致的工程优化成果。尽管新的模型达到了与GPT4同等水平,但考虑到大模型的scalinglaw和参数量随时间缩减的趋势,这种进展并不令人意外。国内大厂也已相继推出了类似水平的模型,显示了AI技术的快速迭代和成本下降趋势。 0219R一系列模型:对标GBT4的长推理AI创新 本次讨论聚焦于R一系列模型,其与GBT4的4O1系列模型对标,特别适用于长逻辑推理和数据体验等场景。R一系列模型采用了创新的OIMobjectrewardmodel,仅根据结果给予奖励或惩罚,从而提高了模型的效率和效果。此 外,该模型的开源策略和多样的模型大小使其更易于开发者和消费者使用,特别是在AI搜索领域,被认为是2023年落地最快的应用场景之一。数据显示,R一系列模型在全球范围内迅速获得了近3000万的月活跃用户,其中30 来自中国,显示出其在全球市场的广泛接受度和影响力。 0603AIAnswer:从搜索到智能文本处理的未来 对话讨论了AIAnswer的概念,即通过查找和分析大量数据来提供负责任和准确的回答,而非凭空编造。提到了AIAnswer在高尔夫球杆选购建议、电子病历分析、税务合规报告撰写等场景的应用,强调了其在文本处理和简单逻辑推理方面的价值。此外,还提到了某些AI模型在语言表达上的优势,如能够恰到好处地在安全边界上进行评价,以及在媒体叙事上赢得大众喜爱的特点。 0833大模型训练与推理成本及效能分析 讨论分析了大规模模型训练对计算能力、数据量和参数量的需求以及其对模型性能的影响,指出随着这些因素的提升,模型的损失值会减小,效果更佳。此外,探讨了当前模型训练成本的误区,强调实际成本应包括多次尝试和优化的总和,并分析了推理阶段的算力需求,指出即使在理想模型下,高活跃用户量也会对服务器的算力构成巨大挑战。 1311AI技术发展及产业应用前景探讨 讨论聚焦于AI技术,特别是AI实验室向产品化公司转型的挑战,以及大规模软件运营、用户管理和跨国数据安全监管的难点。提到了AI技术的普及和应用激活了中国企业,推动了云计算公司和IEC公司的表现。同时,AI技术的开源对于创新创业产生了积极的外部性,尤其是对中国这样的创新活跃地区。还探讨了硬件研发、云厂商、CDN等产业链各环节的受益情况,以及应用层面的泡沫与创新机会,强调了虽然存在泡沫,但泡沫中孕育着创新,期待未来有更多实质性的应用涌现。 要点回顾 在过年期间,关于DeepThick的讨论很热烈,可以简要概述一下他们发布的模型及其性能表现吗?关于R1系列模型,它的创新之处在哪里? DeepThick团队发布了多个模型系列,其中V3和R1表现较为突出。V3模型运用了诸 如MOE、MLP、MTP等技术,具有极高的性价比,在性能和推理成本方面达到平衡,处于领先地位。而R1系列模型则与GPT4同等水平,符合工程优化精神,随着参数量减少,仍能实现高效的知识密集型效果。R1系列模型的一个重大创新是采用了OIM(objectrewardmodel),即只关注最终结果,正确则加分,错误则减分,而不考虑中间过程。这一方法让模型直接给出答案并根据结果调整,相比传统的PRM(progressrewardmodel)更侧重于过程奖励的方式,降低了实现难度,受到了开发者的广泛关注和应用。 这些模型在用户接受度和市场反响上表现如何? 这些模型反响热烈,R1系列模型发布后迅速在全球获得近3000万月活跃用户量和极高的一日活跃度,超越了其他知名模型的销量数据。其中,RE模型因其较好的通用性和多语言适应性成为主流选择。此外,该系列模型开源特性吸引了众多开发者,包括国内的阿里等大厂都在后续发布了类似的长推理模型,但只有DeepThick和阿里实现了双端开源,DeepThick因此抢占了先机。 阿里模型能在消费者端火起来的主要原因是什么? 主要原因有两个方面。首先,阿里模型是36B的大规模模型,对设备要求较低,即便是家用麦克风或AR眼镜也能运行。其次,它在消费者端踩中了一个杀手级场景AI搜索,并且在2023年被预测为落地最快的应用场景。通过AIanswer功能,可以为用户提供基于50到80个网页信息总结得出的可靠答案,这种功能在海外需要付费,但在国内已经衍生出许多类似应用。 AIanswer具体能带来哪些价值和应用场景? AIanswer能提供基于深度学习和长推理模型的高质量回答,比如在用户询问购买高尔夫球杆时,能整合多个渠道信息进行分析并给出靠谱的建议。此外,该技术在未来6到12个月内有望在包含副文本且具有一定简单逻辑的场景中取得显著效果,例如电子病历分析、体检报告解读、税务合规报告撰写、法务等领域。 DeepMind为何如此受欢迎,其成功因素有哪些? DeepMind的成功在于其训练出的模型不仅具有出色的网络感知和语言表达能力,能够以自然且富有洞察力的方式表达意见,而且在媒体叙事上赢得了大众的喜爱,满足了人们对趋势追求的心理需求。同时,尽管市场曾对其影响力有所讨论,但随着计算量、数据量和参数量的不断提升,DeepMind的底层技术仍然具有创新性和前瞻性,例如通过十万卡训练实现的技术突破,标志着AI研究在预训练和后续训练阶段的新范式。 关于DeepMind的研发成本和技术创新的看法是怎样的? 认为用500万美金“干掉”几十亿美金的事情的说法并不准确。实际上,研发成本不仅包括最后一次训练所需的费用,还包括前期研发过程中大量试错和物料浪费等隐性成本。另外,关于李飞飞团队只需几十美金就能做出SE模型的说法也是不完全属实,论文中提到的是筛选优质数据并利用阿里云模型进行后训练,以达到类似絮叨叨长推理模型的效果,但这并不代表该模型的完全研发成本真的如此低廉。 这篇论文的核心框架是什么,它与训练到极致有什么区别? 论文的核心框架是通过数据精炼和精选,让模型在达到不错效果的同时,使用更少的成本。这与训练到极致的概念不同,后者可能涉及更复杂的调优和资源投入。 dipstick模型在实际应用中的算力需求如何? 对于一个假设的日活跃用户数为5000万、每天交流30次、每次对话1500字的情景下,每秒算力需求大约在170到 8000左右,峰值需求可能需要两万多张H100级别的算力卡。 当前市场对于dipstick模型所需的服务器和算力资源预估如何? 市场上有分析预测需要1万至5万张卡,但这个数据可能被夸大,实际需求可能比这个少很多。要将一个AIlab发展成有产品的AI公司,确实需要大量的资源以及应对运营挑战的能力。 dipstick模型对中国企业和市场的影响是什么? dipstick模型激活了中国各企业自主部署和挖掘需求的积极性,带动了国产卡和中低端消费 卡(如4090、5090游戏卡)的市场需求,同时也为第三方服务公司提供了商机,有望带动整个产业链的发展。 开源DLC对创新创业的影响是什么? DLC开源对于全球创业者具有强外部性,尤其在中国,创新创业人才众多,能更好地利用这种创新活力,从而从DLC开源中获取更多好处。 对于未来赛道上的看好领域有哪些? 整个赛道中,从底层硬件到上层应用都有发展前景,尤其是IDC、云厂商、CDN等领域。硬件方面如国产算力和端测算力等,应用层面上尽管存在一些泡沫,但也孕育着真正的创新公司,一旦有公司推出优秀应用,资本市场将给予积极反响。期待今年能看到更多优质应用涌现出来。