2024 AI 01 1.11.2AI1.31.402030609 11 2.12.21215 25 3.13.23.3262728 36 4 374649544.1 Prompt4.24.34.4 58 59606165665.15.2 AI5.35.45.5 68 在当前快速发展的数字化时代,人工智能技术正在引领科技创新的浪潮,而其中的大模型技术被视为人工智能的一项重大突破,让人工智能领域迎来发展的转折点。归功于深度学习的发展和硬件计算能力的提升,大模型能够在自然语言处理、计算机视觉、语音识别等领域展现出卓越的表现,随着大模型的不断演进和优化,它们在商业领域的应用也越来越广泛,金融、医疗、广告、营销等领域都能够通过大模型实现更精准的用户推荐和个性化服务。 1.1 第一,大模型和传统模型在规模上存在差异。大模型是基于深度学习的方法,具有更多的参数和更复杂的模型结构,往往具有数十亿百亿千亿以上个参数。这样庞大的参数量使得大模型能够更好地捕捉数据中的复杂模式和特征,通过多层次的神经元连接和权重调整,能够学习到更丰富的语义和特征表示,从而提升了模型的表现能力。 第二,大模型和传统模型在训练数据上存在差异。大模型能够更好地捕捉数据中的统计规律和模式,提高模型的泛化能力和预测准确性。然而,海量训练数据中也可能包含着一些敏感数据和个人信息,这使得数据泄露和隐私侵犯的风险不可忽视。一旦这些敏感信息遭受泄露,个人隐私权益可能会遭受严重损害,甚至被用于恶意行为,这些恶性事件的发生不仅会给受害者带来经济损失,还可能引发社会的恐慌和对大模型的信任危机。 第三,大模型和传统模型在计算资源上存在差异。由于大模型具有更多的参数和更复杂的模型结构,因此需要更多的计算资源进行训练和推理。传统模型通常可以在较低的计算资源下进行训练和推理,而大模型则需要更强大的计算设备和算力支持。因此,大模型的发展进步与深度学习和硬件计算能力的提升密不可分,硬件计算能力的提升也为大模型的训练和推理提供了强大的计算支持。 第四,大模型和传统模型在任务表现上存在差异。由于大模型具有更强大的表达能力和更多的参数,因此在许多任务上展现出更好的性能。而传统模型通常只能在一些简单的任务上表现良好,但在复杂的任务上往往无法达到大型模型的水平。而大模型的强大能力也是一把双刃剑,它也可能被用于进行各种形式的恶意攻击。恶意使用者制造的虚假信息,借用大模型的能力,可能放大危害结果,例如在社交媒体平台上传播误导性信息,从而扰乱社会秩序。此外,大型模型的使用往往涉及到社会伦理和法律问题。例如,算法的歧视性问题,即模型在处理数据时产生的不公平或偏见,可能引发社会的不满和争议。 第五,大模型和传统模型在可解释性上存在差异。传统模型通常具有较好的可解释性,可以清晰地解释模型的决策过程和特征权重。而大模型由于参数数量庞大和模型结构复杂,往往难以直观地解释其决策过程。此外,大模型本身也很容易成为攻击者的目标。模型参数和权重的泄露可能导致知识产权的损失,甚至使恶意使用者能够复制或修改模型,进一步加剧风险。对模型 的针对性攻击,如投毒攻击,可能会导致模型输出产生不良影响,从而影响到正常的业务运营。 综上所述,建立可靠的大型模型安全风险控制体系势在必行。本白皮书旨在全面探讨大模型安全与伦理问题,并为各界提供指导,以确保大型模型在广泛应用中的安全性和可信度。通过深入分析大型模型领域的安全挑战,我们可以制定切实可行的措施,确保大型模型在为人类创造价值的同时,也能够保障个人隐私、社会稳定和信息安全。 1.2AI 大模型通常指具有大量参数以及复杂结构的神经网络模型,这些模型通常需要大量的数据和计算资源进行训练,以实现较高的性能和泛化能力。在以GPT为代表的一系列大模型真正兴起之前,相关的技术以及训练的范式也早已孕育。 1.2.1 算力这一问题在过去一直制约着深度学习发展。在深度学习模型中,存在着以亿计的参数,并且这些参数需要进行大量的运算才能够推理出最后需要的特征或结果。GPU提供了高效的并行计算能力,极大地加速了模型的训练过程。这一技术突破使得研究人员能够处理规模更大、复杂度更高的模型。 1.2.2 早期的神经网络因为结构简单,针对不同的任务分化出了不同的应用方向,例如计算机视觉,自然语言处理,语音等等。但是在2017年,随着Google团队的Transformer架构出现,这一模型在自然语言处理的问题当中取得了惊人的成功,该模型架构仅有Attention机制组成,能够实现自然语言文本的翻译。 大模型的萌芽最早诞生于自然语言处理领域,Transformer取代了ResNet等模型架构成为了研究的主流,谷歌和微软分别针对Transformer的编码部分以及解码部分进行研究从而产生了两条技术路线,即以Bert为代表的仅用编码器部分的路线和以GPT为代表的仅用解码器部分的路线。 而Bert以及GPT都用到了预训练的训练范式,也即是利用大量的数据训练一个基础模型,然后在下游任务上进行一点微调就能够在相应的任务上得到很好的性能表现。 而真正让大模型进入公众视野的正是以GPT-3.5为基础构建的ChatGPT,OpenAI基于前几代GPT的架构,在增加了参数量以及训练数据量之后,呈现出了一种涌现的能力。也即随着规模的增加,大模型的能力得到了一个飞跃式的提升。从2022年以来,以LLM(大语言模型)为首的大模型如井喷式的发展,在GPT之后,Meta公司也开源了他们的大模型LLaMA,为学术界以及工业界提供了另一种可选项。 大模型的发展并不是一蹴而就,而是由多方条件达到成熟之后自然而然涌现出的,基于硬件的发展以及对于数据科学的进一步认识和模型结构的更新,大模型以其强悍的能力自然而然成为了当下研究的主流。然而,在大模型快速发展的过程中,深度学习固有的一些问题,也在大模型当中延续,这也是后续大模型相关的安全伦理研究也是非常重要的一点。 1.3 1.3.1 OpenAI GPT 早在2018年6月,OpenAI就已经发布了第一个GPT模型,但模型参数量仅有117M。后续OpenAI陆续发布了GPT-2和GPT-3,GPT-3是第一个大语言模型,参数量高达1750亿。2022年11月底,OpenAI发布一款对话型AI模型ChatGPT,以其出色的交互式对话能力和理解推理能力引领了大模型的发展潮流。2023年3月,OpenAI继续发布了多模态预训练大模型GPT-4。GPT-4实现了几个方面的飞跃式提升:强大的识图能力,文字输入上限提升至2.5W字,回答的准确性也显著提高,甚至能够生成歌词等创意文本。GPT-4在各类专业测试和学术基准上的表现与人类水平相当,甚至通过了模拟的律师考试,且分数在应试者的前10%左右。 1.3.2 Meta LLaMA 2023年2月24日,Meta公 司 发 布 了 一 款 名 为LLaMA(Large Language Model Meta AI)的基础大语言模型,该模型有四个版本,分别是7B、13B、33B、65B。因为模型被泄露,模型权重可以在网上搜索下载,使得LLaMa也成为最亲民的大模型。紧跟着在2023年7月,Meta又发布了LLaMa的下一代版本LLaMa 2。LLaMa 2有3种不同尺寸:7B、13B和70B。相对于LLaMa,LLaMa 2进行了2万亿个token的训练,上下文长度是LLaMa的两倍,其中LLaMa-2-Chat模型还进行了超过100万个人类注释的训练。此外,LLaMa 2训练语言也比LLaMa多出40%,上下文长度由2048提升至4096,可以理解和生成更长的文本。 1.3.3 Google Gemini 2023年12月6日,GoogleCEO Sunder Pichai官宣Gemini1.0版本正式上线。Gemini可以接受文本、代码、视频、音频和图像等各种类型的输入和输出,具备学习和推理能力。Gemini是一个多模态模型。传统的多模态模型是在第二阶段的时候,将纯文本、纯视频、纯音频模型连接到一起,分别进行不同模态的任务处理,再汇聚到一起;而Gemini从一开始就对不同的模态进行预训练,然后再用多模态数据对其进行微调,使得模型更加高效。一般大模型在输入为音频内容时,会优先将音频内容转换为对应文本内容再进行文本理解,但这个过程会损失许多中间信息,如发音的音色、语气等。为了解决这个问题,Gemini基于原生多模态模型可以实现了针对原始音频的端到端处理,能够很好识别音色、发音、预期等细节,更好理解用户需求。 1.4 1.4.1 多模态是人类世界的本来样貌,AGI的发展趋势一定是朝向多模态。技术将从文本、图像、视频(2D和3D),再到声、光、电,甚至分子、原子等各类模态,而且具备跨模态迁移的特性。未来理想的框架是 “多模态的对齐和融合+统一的编码器和解码器”。12月6日微软发布的Copilot中,将GPT-4V的视觉能力与Bing搜索相结合,为用户提供更好的图像理解和生成体验。7日,谷歌发布Gemini,主打原生大模型,无缝跨文本、图像、视频、音频和代码。谷歌称,Gemini是第一个在MMLU(大规模多任务语言理解)方面优于人类专家的模型,准确率达到90%(人类专家为89.8%)。 1.4.2AgentCoPilot 比尔盖茨近日撰文:AIAgent将是下一个平台,人工智能即将彻底改变人们使用计算机的方式并颠覆软件行业。在不久的将来,任何上网的人都将能够拥有由人工智能驱动的个人助手,远超今天的技术水平。智能体由四个主要部分组成,包括多模态大模型(LMM)、长期记忆(Memory)、规划(Planning)和工具使用(ToolUse)。业界AI智能体愈来愈多,如微软AutoGen,发布短短两周内,星标量就从390增到10K,并在Discord上吸引了5000多名成员。它允许多个智能体扮演各种角色,如程序员、设计师,或是各种角色的组合,仅通过对话就可以完成编程任务。 1.4.3 大模型正在向端侧转移,AI推理将在在手机、PC、耳机、音箱、XR、汽车,以及其它可穿戴式新型终端上运行。端侧大模型具有一些独特优势,如,本地数据处理效率更高,节省云端服务器带宽和算力成本,对用户数据更好的隐私保护,开启更多交互新方式、新体验等。 目前,一些手机已经在利用本地AI支持如暗光拍摄、降噪和人脸解锁等功能。未来借助端侧大模型,并结合向量化后的各类个人数据,用户可以跟手机进行更流畅的交互,实现各种原生操作和功能。如,Humane正式推出AI Pin,搭载GPT4,可实现语音交互,也可以投影在手 掌上交互。高通推出骁龙8 Gen3,支持终端侧运行100亿参数的模型。苹果最新的M3芯片支持端侧推理,且计划推出更智能的Siri,为端侧大模型生态做积极准备。 端侧大模型应用具备三种可能性,首先是端侧原生集成AI模型,类似Siri,帮助用户调用其他软件,从而可能成为硬件新入口。其次,将大模型作为独立app,例如MIT一位教授将开源模型集成在手机端做一个独立app;第三,将大模型接入即时通讯软件作为chatbot,例如What’s App已经集成了Meta AI。 1.4.4 AI 在AI技术的加持下,科学研究的效率大大增加。通过理论探索、设计实验、分析数据等方向为科学发现提供动力。AI与各个科学领域结合后,正在发生一场充满潜力和挑战的科技革命。 在理论探索阶段,以ChatPDF为代表的LLM应用可以对既有文献的梳理,加快科研信息检索的效率,在此基础上提出新的研究问题,对现象和数据观察提出某种猜想,帮助科学家发现新问题。 在数据分析阶段,AI可以通过大量数据和复杂的数据分析,帮助提取有用信息和填补数据缺失,从而提高数据质量和利用效率。降低对数据的依赖。在处理高度复杂和多变量的科学问题时,大模型能提供高效的计算能力和深入的洞见。 在科研领域,生成式AI被用于预测基因序列、发现新的药物靶点以及设计新型的生