致生成式广AI大企业而应用落尽地技精术白微皮书 神州数码集团股份有限公司神州数码通明湖研究院 北京信百会信息经济研究院 CONTENT目录 1生成式AI是一场技术范式变革3 2生成式AI的六层技术生态8 2.1AI算力基础设施8 2.2基础大模型与相关技术14 2.3大模型与训练、评测数据22 2.4生成式AI应用开发技术26 2.5生成式AI安全与监控35 2.6生成式AI应用设计38 3生成式AI企业应用落地实践探索和总结41 3.1生成式AI与企业数字化转型41 3.2企业应用落地的关键问题与应对方法42 3.3企业应用落地的四类驱动模式55 4AI产业政策与发展趋势65 4.1我国AI产业政策65 4.2AI产业发展趋势69 4.3促进我国AI产业发展的对策建议73 5写在最后74 6引用76 1生成式AI是一场技术范式变革 2022年末ChatGPT的横空出世及其之后的持续迭代,以一种人人可亲身感知的方式,把人工智能在自然语言领域里的重大进展在一夜之间展示在世人面前。而在企业应用场景方面,之前的AI技术都集中在相对专业的应用场景内,如机器视觉、语音识别、或推荐系统、风控管理等。但是语言,作为人类重要的思维工具以及知识组织和传播的最主要手段,其“能力泛化”的可能性远远超出了其他领域。因此,当ChatGPT能够与人类进行深入、富有深度的对话时,人们开始想象一个真正能够理解业务或专业、思考解答专业问题、甚至进行业务的组织、管理和创新的机器的可能性。对企业的数字化转型进程而言,生成式AI技术带来的潜在影响很容易让人将之类比于交通史上铁路系统的发明、亦或动力系统中对交流电的引入。 在生成式AI技术出现之前的十多年间,数字化转型一直是企业采取的一项重要战略,来促进企业在新的商业环境中保持竞争优势、创造新的商业机会。根据2011年,数字化转型最早的提出者之一——Gartner的定义,数字化转型包括从IT现代化升级(比如全面云化升级),到通过数字技术进行业务优化(比如精准营销)或业务模式创新(比如创新的引流和盈利模式)的一系列战略举措。近几年来,数字化转型的重点聚焦领域,已经越来越转向企业数据资产的建立,神州数码集团的创始人和CEO郭为在《数字化的力量》一书中,对此提出了全面和系统的论述。 而生成式AI出现之前,数据一般只有经过结构化处理之后,才能够在企业应用环境中发挥作用;而在企业的经营活动中,产生的大量的数据无法被结构化处理,比如内部海量的会议纪要、周报、季报,其中包含大量关于企业具体业务事项的分析和讨论;企业的大量的合同文本、项目验收材料,其中包含有大量的交易细节;而在销售和客服人员与顾客的线上互动文本,其中也有一手的客户对产品和服务的反馈;再有,就是企业产品的大量的用户手册、故障分析文档、产品服务和支持技术资料等等,其中有丰富的技术支持所需的知识。 所有这些包含的非常有价值的信息和知识,以往只能限于少数专家或管理者的随机及离散地利用。传统的数据处理和分析方法对这种非结构化的文本数据无所适从。高价值的信息无法被有效提取,意味着企业可能错失了重要的决策依据、市场洞察和创新机会。 以大语言模型为代表的先进的自然语言处理技术的出现,预示着这种情况开始发生变化。企业有可能利用这些创新技术来自动分析、归类和抽取这些非结构化数据中的关键知识,进而为决策者提供有力的支持。例如,通过自动分析销售和客服的交互文本,企业可以更准确地了解客户的需求和不满,进一步优化产品和服务。更 进一步,企业还可以利用这些技术结合知识图谱技术,将分散在不同文档和系统中的信息连接起来,形成一个跨组织结构、跨业务领域、跨时间维度的企业大脑;为企业提供一个一体化的知识查询甚至咨询平台。这样的平台将会成为企业的超级销售助理、超级客服助理或者是超级管理助理。生成式AI技术的出现,为企业数字化转型,注入了强大且更为直接的新动能。 不过,以上对生成式AI技术对数字化转型的推动的“推演”,可能还存在很大局限。如同早期的英国铁路,斯托克顿-达灵顿专线其实是在铁轨上跑马车。早期的蒸汽机的一个主要应用场景是在枯水期将水引向高处蓄水池以帮助驱动水车。 目前我们设想的生成式AI的应用场景,也处于早期状态。生成式AI技术为企业数字化转型带来的会是更为根本的变革,即技术范式的改变(ParadigmShift)。我们借用《技术的本质》一书中对“技术域”的定义来解读“技术范式的改变”:作者在这本书的第8章指出,(它)不是单独一个技术体的出现,而是新技术体引发的“重新域定”。新技术域对经济的影响也比单个技术对经济的影响要更深刻。作者认为,经济并不是采用(Adopt)了一个新的技术体,而是遭遇(Encounters)了一个新的技术体。经济对新的技术体的出现会作出反应,它会改变活动方式、产业构成以及制度安排,也就是说,经济会因新的技术体而改变自身的结构。如果改变的结果足够重要,我们就会宣称发生了一场颠覆性改变。 生成式AI技术正在形成新的技术域定,它首先对应用软件开发产生了显著影响。得益于计算机程序设计语言的严格语法、清晰逻辑性和罕见的二义性,生成式AI技术在代码生成和辅助编程方面的效果日益突出。展望未来,软件开发的重心将更多地倾向于需求分析和软件架构设计,而编码和代码质量审核的流程,将在先进的辅助编程工具的助力下,实现效率的飞跃性提升。在2017年,曾经是OpenAI创始成员和研究科学家,担任特斯拉技术总监的AndrejKarpathy就预见到了引入AI之后的新软件开发范式,他在一篇技术博客中提出了软件2.0的概念。在软件1.0的模式下,由程序员设计软件解决问题的方法和细节逻辑,并通过编写显示指令来实现这些逻辑。而软件2.0是利用神经网络自动完成软件的设计。未来大部分程序员无需编写复杂的程序,维护复杂的软件库、或者分析它们的性能。他们只负责收集、清理、操作、打标签、分析和可视化为神经网络提供信息的数据即可。随着生成式AI技术的快速迭代,业界内正在宣称“软件工程3.0”时代的开启:AI重新定义了开发人员构建、维护和改进应用软件的方式,研发团队的主要任务而是以含有私域专业知识的语料(或图像、视频)来训练或精调模型、围绕业务主题设计提示模板(PromptTemplate)、探索最有效的智能体(Agent)机制等。 图1Software1.0到3.0 综上所述,不论是“1.0”“2.0”还是“3.0”模式的软件,生成式AI技术都将为其注入革命性的创新力量。应用会在价值和体验、安全和运营、架构和交付等方面发生深刻变革,从而催生出企业应用的大升级和大迭代。而更快和更广泛的业务数字化转型,则会产生更多的数据资产和应用场景,数字化转型的飞轮效也将应运而生。 为什么会有这篇白皮书 每一次技术的范式变革都深刻地重塑了经济格局和社会结构,同时也催生出企业数字化的新浪潮。例如,以2010年为分水岭,移动互联网和智能手机的快速渗透为众多崭新的应用提供创新的土壤。在此背景下,移动定位、身份绑定和移动支付等技术场景快速落地,为企业开辟了全新的移动获客渠道。不少企业敏锐地捕捉到这一趋势,纷纷推出小程序或打造移动应用平台,助力自身在激烈的市场竞争中快速而精准地获取用户、拓展市场地位。这不仅为企业和市场带来了前所未有的变革和机会,甚至形成了新的社会消费习惯。 由于对上一次的技术变革带来的影响仍记忆犹新,使得这一轮人工智能的飞跃式进展所产生的震撼和影响更为强烈。不仅技术层面的CIO、CDO和CTO表现出浓厚的兴趣,企业的各个业务单元、包括CEO在内的高级决策层,几乎都在第一时间启动了密切地关注与讨论。 而另一方面,在这场由生成式AI引领的技术范式变革中,相关的推动力量从实验室快速走到了公众舆论 中心。这些力量,不再仅仅局限于学术会议的探讨。行业头部公司、初创企业及各个研究团队,也在数字化的今天利用自媒体平台和社区平台积极互动,并保持与主流媒体的沟通。开源社区的贡献和风险投资的活跃参与,更是助燃了这场技术革命,大量创新的想法都会快速落地实现、并成为资本追逐的目标。 大量的自媒体在这场热潮中成为了连接“圈内”和公众的纽带,他们迅速收集信息,并按更易传播的方法拆解(或碎片化)信息,使其在短时间内成几何级数放大,触达更广泛的受众。 然而,这种聚光灯下的创新展现,也给企业带来了难题。在信息海量涌入的时代,过多的信息反而形成了负担。企业在努力把握技术趋势、评估技术进展对自身业务的潜在影响时,往往陷入信息过载的困境,这不仅无法快速做出决策,更可能导致企业面临选择困惑,产生不必要的焦虑。而大量的粗粒度信息,也会对技术产生误解并不恰当的期望,这反而会阻碍早期的创新型尝试。 在与众多企业客户深入交流的过程中,我们深刻地认识到,对于当前的技术进展和各种应用实践进行系统的梳理与小结是至关重要的。这不仅能为企业提供一个清晰的技术发展蓝图,同时也助于他们更好地了解趋势,捕捉潜在机会,进而制定更加科学、前瞻性的战略计划。此外,这样的梳理还能推动行业间的交流与合作,为企业之间打造共赢的合作模式,加速整个数字化转型领域向更新的阶段发展。 我们希望通过编撰这篇《白皮书》,能够起到“抛砖引玉”的效果,引发业界的讨论。我们热切地期望生成式AI相关的技术提供者、应用解决方案的开发者、行业内的重要客户,以及各大研究机构等,能够以这篇《白皮书》为“靶子”进行深入的梳理和探讨。我们更希望它能成为企业客户和生成式AI技术落地实践者之间共识的起点,帮助大家澄清概念、分析当前的技术趋势,预测未来可能的发展方向。我们深知,单凭一家之力难以捉摸整个行业的脉搏,但是,通过集思广益,我们相信能够对这一领域产生更深入、更全面的了解。 在这篇《白皮书》中,我们旨在全面探索生成式AI技术的进展与应用。后续内容将分别从生成式AI的相关技术梳理、技术落地企业应用的路径、以及生态和监管这三个维度展开:对相关技术梳理,将从生成式AI的六层技术生态的角度,思考和总结生成式AI技术在不同维度带来的技术创新和挑战;然后,我们将深入探索生成式AI在落地企业中的实际应用,以及与现有业务的整合和可能遇到的挑战;最后,我们将讨论生成式AI在整个行业生态中的地位,伴随的伦理考量,以及对应的监管建议和未来发展趋势。通过这三个章节,希望可以为读者提供清晰的技术发展蓝图,帮助企业和研究者更好地理解、应用并推动技术的健康发展,从而应对信息过载、技术误解和创新尝试中的挑战,正如我们在白皮书开篇所述的背景和目的。 并发式创新的复杂局面和企业应对的策略 生成式AI的企业应用落地,事实上已经形成了基础研发、监管和安全、应用开发、企业(或行业)私域数据就绪、企业能力就绪等多个领域并行探索的局面。上述每一个领域既相互促进,又相互制约,而在企业应用的实际环境中,又需要探索业务流程、使用习惯和技术落地之间的变通和粘合。例如企业(或行业)私域数据就绪意味着企业需要建立一套完整的数据管理和维护体系,来确保数据的质量、完整性和安全性,当大语言模型需要进行微调或适应特定场景时,可以迅速地获得高质量的训练数据。 而最为重要的是,生成式AI的基础技术研发还在快速进展之中,制约其在真实业务场景使用范围的问题:例如在私域知识框架内的对齐,包括幻觉消除,知识收敛,以及上下文长度等,还在不断探索和解决之中。其中应用场景更为广阔的多模态大模型技术,更是令人充满期待。 从来没有哪一个时刻,使得企业在制定技术战略时,需要理解如此复杂的技术趋势,平衡考虑如此多的矛盾因素。从近期和客户的广泛交流中,我们发现,一些非常值得借鉴的策略已经形成: 1、两个立即着手: 立即着手采用点状业务创新的方式:紧密跟踪最新技术进展,探索安全和监管的边界构建; 立即着手采用共创的方式:选择外部供应商和合作伙伴,为有可能到来的生成式AI的场景爆发准备好强大的外援力量。 2、两个规划制定: 私域知识治理规划:生成式AI技术助力企业数字化转型,无论如何都需要企业私域知识的加持,部分企业 曾经开展过数据治理