记录过程可能存在遗漏,仅供参考。本篇内容均来自公开会议,不代表我方观点 CEO徐立 人工智能模型的能力应该考量参数+训练的数据量,二者乘积为计算量。大模型以及数据未来对计算量的要求是爆发式的,今天计算量我们强调 GPU的计算量以及并行效率,我们的大装置上面的软件系统给大家带来高并发效率的基础设施。参数量:过往10年人工智能最好的算法,以每两年一个数量级的要求往上翻,过去两三 年参数量每年翻10倍再提升。人类的神经网络的连接个数在150万亿,人工神经网络计算机系统相比还差三个数量级。随着技术的迭代,参数量会往上走。 数据量:GPT3公开数据5000亿token,人的一生当中如果一直在听单词的话,可以听 10亿到20亿个词汇,所以人工神经网络能够处理知识量,已经远远大于一个人一生当中能听到的单词数。最大的神经网络也训练了2万亿 token,人类的高质量语言词汇总数大约在9万亿左右,很快会面临着高质量语料被消化完。人类的80%的信息是通过眼睛来获得的。我们虽然 有150万亿的参数,但是参数里大部分是处理视觉的,少量是处理语言的,而且肯定是先进化视觉再定义,语言是我们祖先发明的对这个世界高浓度的压缩的表达。所以我们通过语言能够很快地了解这个世界,但是一定会有更多的信息从视觉当中获得。 通用大模型:当前业界有大量对于基础算力和基础设施的需求,商汤临港目前有27000块 GPU在跑,输出5000P的总算力,500P的国产化的算力,支持20个千亿规模参数量的模型,以千卡并行的规模来往前走。同时我们把我们的大模型能力做成服务能力,来服务客户,包括自动化标注,我们自动化标注的能力是提升手动标注的400倍到500倍,看应用不等。 大模型有个很重要的成本是部署成本,我们推理的效率已经提升100%以上。大模型的并 行训练,如果连接4000块卡训练稠密模型,最佳的配置是在5000亿的参数稠密模型,因为我们有大装置,我们有敢做的能力。我们今年的目 标是训练支撑万亿参数的训练,但是参数有可能是稠密,有可能是稀疏的等等。但是至少我们能够支持稠密5000亿参数的训练,可以有增量训练,我们把模型放到平台上,能够做大量的增量训练,并且把增量训练的成本降低90%,也就是原来的1/10。同时我们会开放我们的模型超市、模型工具,以及开发者工具,使得大大提升我们开发者的效率。 我们在这个行业里面深耕了很多年,我们的大模型是从19年开始做的。我们现在发布的大模型体系叫做日日新。上面融合了我们自然语言的大模型、文生图的大模型,感知类的大模型的增量服务模型开展A。 1、自然语言大模型 我们自研的自然语言大模型叫sensechat(商量),我们认为自然语言大模型的能力就在于你跟它的互动之间挖掘出他解决问题的方案,不是一个单纯的问答,他是通过多人互动,所以我们的slogan叫商量,商量都能解决,他不能一次,得慢慢的跟他商量。同时我们还带有知识更新的模块,能使得它能够信息更加准确。 案例:帮商汤语言大模型写一段广告 商量:当语言成为你的优势,世界将为你敞开大门案例:写一份邀请函 (1)万卷文献助手 如果需要解决一些财务的专业知识,法务的专业知识,金融行业文本的专业知识,我们需要引擎有对长文本的理解,并且把它扮演成这个方向上的专家阅读专业的文本,我们有商量连接的万卷文献助手 (2)接入其他应用,如编程代码(vscode) 案例:计算两个数的最大公约数/求两个数是否互质/调用接口,解决一个手写OCR 商量接入了自然语言编程之后,会改变原来的二八定律。从20%的代码,抽象的公共库,80%的人来完成,但到未来80%是机器生成,20%通过提示词。经过微调之后,帮助程序员共享经验,很多情况下你用这套模式,就调动AI程序的经验,对于公司来说是非常重要的。如果用公司所有的库跑一遍这个模型的话,公司新来的员工立马享受到原来的员工的知识,并且能够加大开发大能力。我们在测试范围之内,我们发现员工在用了这套平台之后,上载的代码量效率提升了60%,测试集上准确率一遍过,准确率40.2%,是目前大家可用到的里的最高,比copilot高。功能:代码补全、扩写、翻译、重构、修正、注释等等。复杂度分析很重要,因为代码复杂度是制约代码跑起来很核心的原因。我们写测试用例,test写得不完整的,写的一些边缘的cornercase都没写到,但是这个测试用例可以生成得很完整。 支持多语言的中英文编程。 (3)医疗 健康咨询,互动问诊,辅助诊疗。 已在清华医院落地便民服务,也会再进一步推动在瑞金医院和华西医院等等上线。 2、赋能生成式平台 (1)秒画:超10亿参数自研文生图模型,支持二次元、三次元等多种生成风格。推理速度快(单卡A100支持、2秒可生成1张512K分辨率图片) 可自训练(5分钟内定制属于自己的LORA模型@20张训练图片。且全部不要编程能力,只要拖拽就好了)生成模型开源社区(汇聚1万+开源模型,为创作者提供更加完善内容生产创作工 具) 提供B端API服务(基于平台发布的模型可设置为toB服务API,结合商汤大算力对外提供服务)。 (2)如影:AI数字人视频生成平台,仅需5分钟录制的视频就可以生成数字人视频,AI文案一键生成,支持多种语言。我们今年也跟故宫联合开发了一款数字文创的产品。案例:生成丝绸之路介绍视频,用中文、英语和阿拉伯语 (3)琼宇:3D生成,城市级生成,生成100平方公里只需要2天(对比人工建模需要 10000人),并实现高逼真、高还原场景。多源数据融合、进一步提高画面清晰度和细节,场景可实时交互。应用场景涵盖城市及园区数字孪生,建筑设计、影视创作、文旅和电商等。 (4)格物:生成3d物品,应用方向包括商业广告云景视频。 传统3D的建模有几个难点,1)复杂物体的建模往往会牵连到背景。2)光泽往往建不出来,材质不能分辨清楚。我们的这种系统的综合的扫描效率提升了400%,把原来的成本降到了5%左右,并且能够覆盖所有的品类。有了这些之后,我们可以有一些新的行业应用,比如空间的创意,把东西扫完了扫描之后直接放到空间当中,可以做家装,影视作品的嵌入,综艺视频中的物件摆放。我们还可以在模型上叠加更多的风格关系案例:蓝色空间号,三体里面的一座舰船,用AI自己学了一个运镜,整个视频商业广告的视频完全是AI自动化的,不需要插手。 用格物扫描完之后,自动生成一个商业广告的运行视频,直接可以发布,这对于很多做电商的人来说有很大的场景空间。 结合我们的人物场,我们可以做到更加完整的编辑。比如一个场景中可以嵌入数字人介绍,嵌入得物添加的物件,切入运镜手法,使得编辑进入了一种新的大模型的时代,结构和真实光照效果,并可以做到实时高空真渲染。如果把一个高清的场景全部复原了之后,可以在上面重新拍摄影视作品,重新拍摄一些互动的内容,都可以在这做。 原来的一些影视作品里面3d资产都可以用神经渲染的方法来做,比如说样板房,电商平 台,甚至是可以在一些地方直接点到这个物件做交互,室外场景的水里的倒影可以看到真实的情况,还原真实,万物重生。 这当中有一个很重要的难点是在于怎么样做到实时性的交互。训练大模型的速度非常的慢,如果不能实时是没有办法这样完成。我们做到了3D可实时交付切换场景看一看。比如对于游戏的制作者来说,可以随意地切换自然的风光的场景,添加一些内容,就可以变成一个新的游戏场景。 在通用类别的检测里面,我们有超过900多个类别,在单一的模型我们就可以实现这个检测输出。 大家可以申请API的密钥体验我们自动数据标注的服务。它涵盖了超过1000个不同的目标的类别,2D和3D,有超过了10个行业里面的专业大模型,我们还在源源不断地去在这个里面加入我们新的模型,还有新的标注的类别,它也可以去针对人我们人工智能秒画生成的图像进行更详尽的数据的标注。有一个闭环,源源不断地去产生新的数据。 我们在大装置上,除了服务日日新自研大模型体系之外,我们还有7000张的GPU对外服务超过8家的大型客户,用来训练他们超过千亿的规模的大参数模型。在1956年,人工智能这个词和另外一个叫做粒子对撞机同年被发明,粒子对撞机今天成为物理学发明里最重要的基础设施大装置,今天我们把我们的AI算力中心起名做大装置,也希望它能够成为人工智能大模型时代的最重要的基础设施,赋能我们的行业,推动AGI发生和到来。 CTO 从2012年开始,按照过去十年人工智能的革命,它是以深度学习,不断地去突破工业应用的红线为起点,由此就诞生了一批AI+场景的应用,每个场景都有自己专属的模型,但是它研发周期比较长,成本也比较高。伴随着ChatGPT的出现,通用人工智能又掀起了一波新的人工智能的技术的革命,它以更加高效的方式去解决了海量开放任务,也带来新的研究的范式。它是基于一个超大多模态的模型,是通过人类的反馈,强化学习不断解锁我们模型的新的能力。 什么是通用人工智能?在现有的AI系统当中,我们可以输入多模态的数据,输出也可以是多个任务,但是这里面的每一个任务都是事先预定好的,当我们遇到一个新的任务的时候,我们就要对AI的系统进行重新的设计,采集新的样本,对模型重进行重新的训练。在AGI的系统下,我们的输入是提示词,它的输出产生多模态的数据,加上用自然语言描述的各种的任务,因为我们并不需要对AGI模型做出改动,我们只需要去选择合适的提示词,就能够去覆盖非常广泛的开放式的任务。这里面就包括了大量长尾的问题,甚至一些主观描述的任务,这对于人工智能大范围推广有着非常重要的意义。 我们以自动驾驶的场景为例,比如说给定一幅图,我们想问自动驾驶的车辆是否应该去减 速?在现有AI的系统当中,首先我们要进行物体的检测,得到物体的检测框,然后进行文字的识别,做出决策和判断。在这个系统当中,pipeline当中的每一个模块都是事先预定好的任务。但是在通用的人工智能的系统当中,给第一幅图像,我们就可以问这个系统任何问题,比如说这个主要是什么意思?我们应该怎么做?agi模型就可以给出我们的答案,而且会给出我他推理的过程。比如说他看到这个目标是有30公里每小时的限速,在 前方100米,前面有学校,有小孩活动,所以我们需要小心,需要把我们的去车速去降到 30公里每小时以下。 我们说在AGI的系统当中,我们去实现的是模型和人之间的这个互动,它产生的是有智慧的内容,我们叫做这个人机共治。在现有的AI系统当中,我们已经实现了数据的飞轮,我们从前端终端获取大量的数据,进行标注,去更新我们的模型,这个模型又回馈到前端,能够去获取更高质量的数据。 在AGI的这个系统当中,人和模型之间是怎么互动的?实际上是模型的输出是更好地去对齐人的意图,我们说叫alignwithhumanintention,人就给到这个模型一些更好的指导,包括一些方法论的输出,帮他解锁更多的技能。反过来我们说这个模型它就会能够去输出更加高质量的内容。这个过程叫做智慧的飞轮,人机共治出现对于人类社会的科学技术和文化的进步大大加速了过程。 什么是一个好的优秀的大模型,它就好比一个非常有天赋的运动员,作为教练员,人类并不需要一招一式地去演示给他看,我们只需要给他输出一些方法论,给他恰当地引导,在关键的地方给出一些指引,他就能够去完成这个新的动作,甚至是创造一些新的动作,叫做见招拆招,无招胜有招。所以在实践当中,他才能够不断地解决新的问题和挑战。 如果是资质差一点的大模型,通过自己的努力,他也能够达到一定的水平,这就需要教练员一招一式地去演示给他看,甚至需要有天赋的模型去展示。这意味着我们去需要收集更多的训练的数据,他也能达到一定的水平,但是可能没有办法给我们带来更多的惊喜,但是如果我们要是用固定的标准去评测这两个模型的时候,就有可能看不到这样的差异,我们怎么去研发一个优秀的这个大模型?那么这就需要有我们有非常丰富的场景,非常开放式的任务去检测一个大模型是否非常优秀,同时我们也需要非常丰富的数据和任务输入给大模型,完成它的这个训练的过程。 商汤