阿里达摩院AI专家交流纪要 小结: 1、Google和微软代表当今世界最顶级的人工智能方向,两家企业领先国内大厂两年左右的时间。 2、国内大模型,第一梯队是腾讯、百度、阿里、华为。第二梯队,科大讯飞、商汤、昆仑万维。 3、国内外大模型玩家和OpenAl的差距:模型层级、Token长度、多轮对话、复杂问题推理、角色扮演、文章续写、文本理解、代码生成、文本摘要和总结。 4、大模型工程化训练的目的:大规模深度学习模型的训练过程更加高效、可靠、可重复,并且在实践中实现可扩展性。大厂的训练数据主要来源是内部数据,这是大厂的核心竞争力之一。5、基于大模型的云计算技术栈Maas:Mass将取代SaaS和Paas,运营商的技术能力弱。没有Maas接下来在云计算市场会比较难过。 6、国内GPU新创公司的短期机会在推理侧,现阶段国产GPU大多还不具备支撑大模型训练所需的能力。 以下为AI专家交流内容 1、今年3-5月是AI最集中爆发的时间。11日早上Google又发布PaLM2。Google说PaLM2已经超越OPENAI的ChatGPT4。也就说,目前Google稍微领先微软。Google和微软这两家公司基本上代表了当今世界最顶级的人工智能方向,是引领我们进入AGI的两个头部企业。两家企业领先国内大厂两年左右的时间。 2、过去的技术为什么没有像今年一样引起大家广泛的关注。有几个原因。1)过去发布产品面向 2B端,而这次直接面向C端。C端用户马上感觉到生成式人工智能技术带来的变化。2)过去的RNN循环神经网络和CNN卷积神经网络些技术,有几个缺陷。一是语言的长距离信息会被弱化,二是串行处理机制所带来的计算效率低。而这一代Attention技术在每一层的计算中都考虑 了词与词之间的全连接关系,在模型的并行化运算的同时,能够很好地解决长距离信息依赖的问题。2017年Google推出Transformer技术以来,GPT、T5、BERT都是基于该模型。未来Transformer也将是主流的模型。GPT1出来时模型层级只有12项,到了GPT3达到96层。GPT4增加了额外的视觉语言模块,理论上具有更大的模型尺寸,应该在128层以上。因为它的Token长度跃升至32,000多。这是拉开中美差距非常重要的一个原因。Token长度会影响很多方面。1)功能变化的轮次不一样。与AI对话的时候,一段话的第一个字到最后一个字,都要占用Token。如果Token不够长,对复杂问题的推理能力会变弱。2)临时存储功能。现在的技术跟过去不一样,过去基于数据库,当用户去问它的时候,它从数据库提取答案给你,所以回答总是类 似。而目前每次一问的时候,它要根据之前回答的排名和权重以及通过增强学习把评分高的最好的答案给到人类。因此新技术与过去最大的不一样就是每次的问题都通过推理去给到答案。同时 它只具有短时记忆能力,今天跟它说的话,明天它就根本记不住。 3、Transformer成为主流模式以后,衍生出三个流派,分别是GPT、T5和BERT。如果想以零示例提示语(zeroshotprompting)或少数示例提示语(fewsotprompting)的方式做下游任务,GPT模式效果要优于BERT。如果以fine-tuning方式解决下游任务BERT模式效果要优于GPT。 4、目前国外主要有三股势力在做大模型。1)OPENAI和微软,OPENAI已把他的技术与微软的技术深度绑定;Google,但Google走的是闭源线路,包括11日发布的PaLM2是不开源的;Facebook,它是开源的。2)创业公司。从大厂出来的这些创业公司,起点也都非常高。比如Anthropic、Runway是估值达20亿美金级别的公司。其中,Runway提供的视频编辑器是代表当今世界视频编辑最顶尖的技术。未来我们生产视频的时候不再需要编辑,他的技术会帮助你快速去做高质量的视频。3)开源社区HuggingFace。HuggingFace本身不做大模型。他把全世界优秀模型放在上面来做评测。他有非常多的数据模型决策数据,可以跟aws进行结合,给运营商提供一种参照。大模型背景下,运营商是没有话语权的,他没有技术,未来运营商会和有技术的公司合作,把这些模型放在运营商网络上去运营。 2017年开始至2019年的GPT2,OPENAI开源得非常彻底。代码,框架、数据、论文均开源。但2020年GPT3开始就开源了。只能看他的论文。论文里面有大量的关于GPT训练算法的原理性描述。从2020年以后的这三年,是中美大模型拉开差距的时间段。所以,LLaMA等开源模型本身对这个行业的发展是非常有价值的。但LLaMA不能商业化,你可以用来做学术研究、用来做一些非营利性项目,这是它的限制。 国内的很多企业目前走的开源这条线。从开源模型做商业化,就必须满足三个条件。1)大源模型本身的训练大部分是英文的,要拿去做中文的,要构建自己的训练数据,自己去收集中文数 据。2)开源模型本身不提供全套的工具。因此,要有非常强的团队,能够把开源模型产品化。 3)要有算力基础。大模型本身商业化要以强大的算力作为支撑。 5、除了大模型,还有MLCLLM等很不错的小模型,MLCLLM是一种通用解决方案,它允许将任何语言模型本地部署在各种硬件后端和本地应用程序上,此外还提供高效的框架,供每个人根据自己的用例进一步优化模型性能。像OPPO、vivo,他们在思考怎么把大模型植入到自己的下一代手机上面。MLCLLM就为他们提供很好的思路。 6、HuggingFace。目前很多任务都是基于单一的大模型。而HuggingFace不依赖于单一模型去做这件事。可以把一句话拆解成七八个任务,把不同的任务分给背后不同的模型去处理,最后把处理结果呈现给用户。这是发生了新的变化。以前不能把文心一言的任务发给ChatGPT,现在可以了。只要你开放API或者数据库接口。 7、国内厂商做大模型,底层逻辑或者诉求不太一样的。第一梯队是腾讯、百度、阿里、华为。这4家做大模型核心诉求是要重构云计算的底部。目前发布文心一言的百度跑在前面。有B端企 业已经开始在用。其次是阿里,再则是腾讯和华为。第二梯队,科大讯飞、商汤、昆仑万维。第二梯队里科大讯飞是最强的。科大讯飞在机器语音识别领域掌握9种方言,这是他的独门绝技。 科大讯飞有翻译机等产品化经验。 8、国内外大模型玩家和OpenAl的差距 模型层级、Token长度、多轮对话、复杂问题推理、角色扮演、文章续写、文本理解、代码生成、文本摘要和总结 模型规模:目前OpenAl的GPT-3模型规模最大,拥有1750亿个参数,GPT4更将远超其他公司和研究机构的模型。国内的大模型玩家包括腾讯、阿里巴巴、百度、华为等公司,其拥有的最大模型规模一般在数百亿到千亿个参数之间,比起OpenAl仍有差距。 计算资源:算力是一个非常重要的因素,它可以决定一个模型的大小和训练时间。OpenAl基于A100和H100构建了强大的算力资源,包括自己的计算集群和云计算平台。国内大模型玩家的主要算力资源还是以V100和A100为主。 加速算法:OpenAl在训练大型深度学习模型时,采用了一些高效的加速算法,包括:自适应计算算法(AdaptiveComputationTime,ACT)、切片正则化算法、分布式训练算法、梯度积累算法、压缩算法,可以帮助OpenAl加速大型深度学习模型的训练,从而实现更高效的计算和更快速的模型开发。 数据资源:模型需要大量的数据进行训练,数据资源对模型的成熟度也有很大影响。国外的巨头由于在全球范围内拥有更为广泛的用户和数据资源,因此在这方面拥有更大的优势。国内训练数据集在数百亿单词量,OPENAI是数千亿。 大模型算法:在训练大型深度学习模型时,需要使用一些特殊的算法和技术。OpenAl开发了许多大型深度学习模型的算法和技术,例如Codex、Whisper、GPT、CLIP和DALL-E等。其他大模型玩家也在积极研究和开发新的算法和技术,但OpenAl可能具有一定的领先优势。 模型工程化:包括数据怎么做清洗、标注(一次训练中20%钱花在这里)以及模型的结构设计,怎么做训练、推理,这些工程化的能力很多都是需要经验和积累的。 9、大模型工程化训练的目的 大规模深度学习模型的训练过程更加高效、可靠、可重复,并且在实践中实现可扩展性。 提高模型性能:对于大规模深度学习模型,需要在训练过程中进行超参数调优、模型结构调整、数据增强等技术,以达到更好的性能。大规模训练平台可以帮助我们更快速地实现这些优化。降低算力成本:大规模深度学习模型通常需要大量的计算资源,如GPU或TPU。通过将模型训练工程化,我们可以更好地利用这些计算资源,并且通过优化训练过程来降低成本。 支持可扩展性:随着模型规模和数据集规模的不断增大,我们需要能够处理更大规模的数据集和模型。大规模训练平台可以帮助我们更好地扩展模型训练的规模,以满足日益增长的需求。 改善训练过程可重复性:在深度学习模型训练中,随机因素会导致模型的训练结果有所不同。通过将训练过程工程化,我们可以更好地控制这些随机因素,以便获得可重复的结果。 提高训练效率:大规模训练平台可以并行处理多个训练任务,从而提高训练效率。此外,还可以 采用自动化技术来优化训练过程,如自动调参、自动化的学习率调整、自动化的模型选择等。10、大模型训练的数据获取渠道内部数据:大厂自身拥有的数据是最主要的来源之一,包括用户行为数据、产品使用数据、业务 数据等。在大数据背景下,这此数据量非常庞大,同时也是大厂自身的核心竞争力之一。 第三方数据:大厂可以购买第三方数据,例如人口普查数据、地理位置数据等,以增强模型的效果。 开放数据:开放数据是指政府、学术机构、非营利组织等主动向社会公开的数据资源。大厂可以利用这些数据进行模型训练。 公开数据集:很多领域都有公开数据集,例如自然语言处理领域的WikiText、GPT-3、清华/华科大/腾讯/百度/阿里/中国计算机学会、哈工大的数据集等,可以直接从官网或者其他渠道下载 使用。 众包数据:大厂也可以通过众包的方式获取数据,例如通过问卷调查、众包标注等方式收集数据。 不同的大厂在数据来源上的比例会有所不同,一般来说,内部数据是主要来源,占比会比较大,其次是第三方数据和开放数据,众包数据则相对较少。具体比例的大小也会因为不同公司的业务和数据策略而有所不同。 数据爬取:通过爬取互联网上的数据来构建数据集。这种方式需要慎重考虑相关法律法规和道德准则,以免侵犯他人权益。爬取的数据越来越差,因为很多数据都在APP里,而APP数据是封闭的。 合作伙伴:与相关的合作伙伴合作,共享数据。例如,与大学、公司、政府机构等合作,获取他们的数据。 数据购买:有一些公司专门出售各种类型的数据,包括结构化数据、非结构化数据、图像、视频、音频等。这些公司通常会提供数据清洗、预处理等服务,帮助用户更好地使用数据。 获取和使用数据必须符合相关法律法规和道德准则,保护个人隐私和数据安全。 11、进一步增加LLM没见过的有效数据:传统深度学习模型在部分任务上已经超过人类水平,但缺乏人类随着时间推移终身学习的能力。GPT4已训练完比特世界的数据。比特世界的数据是指网上能找到的所有文本输出数据。所以OPENAI下一步可能感兴趣的数据,将是视频、虚拟孪生、3D数据、机器人数据。 12、生成式人工智能(AGI)将在媒体和娱乐业得到广泛的使用。 1)泛娱乐行业:创建更智能的游戏虚拟人和玩家交流提升体验,进行虚拟主播直播互动,为数字人提供了更智能的“大脑”。2)自媒体行业:帮助创作内容,AGI的出现将生成更多高质量文章;3)协同办公行业:可以帮助个人使用者在日常工作中写邮件、演讲稿、文案和报告。提高工作效率。4)视觉识别:VLM应用到机器人训练中可以提高机器人的学习效率和适应性。使机器人能够更好地理解和执行任务,