日日新大模型发布:日新又日新 主讲人:商汤科技董事长兼CEO徐立博士 我们能够做到每天迭代,那是我们模型的能力,但在这之上的又日新,那就是我们结合场景综合解决方案和我们行业的发展能力。所以今天内容分为模型的能力升级以及我们的行业方案。 (一)模型能力升级 从4.10我们发布了大语言模型之后,我们几乎是以每周的速度在迭代我们的模型能力,我们模型的基础能力得到了大量地提升,我们还新增了一些小语种,支持了阿拉伯语,也包括了粤语的使用习惯等等。未来会突破大语言模型的输入长度的限制,使得之后的使用可以进行长文本的上下文对接。我们还开放了新的API接口,也就是挂载知识库。大模型的幻觉问题是非常严重的,所以怎样做到有效的挂载知识库是行业应用的一个核心。除此之外,针对前端终端的一些应用需求我们也适时推出了我们的小模型,我们的小模型不但在性能上有一定的突破,在前端的运行上也能够跑在诸如说我们的骁龙8Generation2的终端芯片上,使得我们更多终端应用可能会变得更好。 在很多的应用当中,有一类应用特别突出,就是人和机器的共同创作,包括和小朋友的互动创作内容,以及人机共同梳理一些不一样的文稿,这是我们发布的小模型和多语言。 此外,我们对长文本能力也进行了升级,长文本是解决我们和机器互动、和大语言模型互动的一个关键,有了长文本,我们可以上传更大尺度的内容,并且给出更长的上下文对接。举一个文本压缩、文本抽象的例子,我们上传了一篇我们CVPR的今年的最佳论文,UniAD无人驾驶,让它试图给出我们了一个中文的总结,所以它要进行翻译,然后做整体的摘要,覆盖了论文大部分的重点 。后续我们也可以基于长文本的对接,再问一系列的问题,比如自动驾驶如何实现决策任务等等,它可以根据文中的理解来去回答,我们也会将长文本的API开放给我们的合作伙伴和客户。随着我们的对话轮次变长,以及底层能力的提升,它可以一步一步地进行更多的细分任务的分解,并且帮大家完成任务。 最后的一个能力是知识库的融合,这也会帮助到大量的行业应用,使得行业应用能够在真正意义上用上外加的知识库,解决幻觉问题。 秒画:4.10我们推出了制作工具,像这样的制作内容渐渐被大家描述成为有手就行、能想就行,但是还有很多细分的任务,比如需要生成某一个特定的人,这其中需要人物ID的保留,需要生成某一种非常特殊的、特定的风格等等。在这样的定制化当中,我们能够有一个新的API升级。同时我们还有一种智能描述,因为现在提示词是很重要的一个核心关键,如果提示词不好,往往人机交互就做不好,但是,我们现在可以用简单的描述,通过算法帮助补充提示词,智能化的描述使得生成变得更加容易。 随着我们的参数量变大,我们可以做到更多的摄影级别、非常高精细的图像生成。比如,我将自己的十几张照片输入进去,就会生成我参加一个活动的照片 ,这就实现了个人形象的保留。 第二个升级的部分是风格的一致化迁移,比如,我们很喜欢鸟山明的设计,就可以提供一些该风格的图片,就可以做到完美的风格的保留。 第三种是换衣,我们输入了大量的衣服照片,就可以形成各种不同的卖家秀,这在营销物料上面是一个非常大的突破。大部分的卖家秀需要花数天的时间拍摄一套这样的营销物料,但是现在只要动动手指,就可以拿到衣服的图片,甚至可以生成不同ID、不同人在不同场景下穿着照片的情况。 此外,我们还可以来做提示词的补充,在简略的提示词的基础上,系统会根据大众的认知补全关键字,这是一个让大家更加方便的工具。这次多模态的升级又让我们开启了一项新的功能,就是对开放世界的理解,比如,我们提供一张中国女篮时隔12年再次夺得亚洲杯冠军的照片,引擎给的答案是这是一群人在舞台当中举着中国国旗,也看出来是得到了冠军,他们脸上表现出来非常地兴奋,最后表现出来运动员的团队精神。显然模型不知这是女排在亚洲杯夺冠的事情,但实际上它真正意义上把这张照片的内涵已经表达出来了,这就是一个开放世界的理解的问题。 又日新的部分我们在这几个月中已在诸多的场景当中落地。 首先,在金融行业我们和我们的客户以及合作伙伴一起打磨了金融垂直领域模型。首先,是外挂的知识库,因为传统的大语言模型直接来提问金融问题是非常泛化的,但是通过我们的API外挂了知识库之后,可以非常到位地直接回答针对那家银行的一些细节和问题,并且能够进行长时间多轮问答。我们的合作伙伴在用我们的的外挂知识库,再接上了数字人之后,就是数字人问答。比如 ,在智能导诊、电子病历、智慧科研、智慧随访当中可以进行一些突破,还有医疗影像以及文本的多模态输入、上传图片的这样的互动式问答,我们进一步将会在医院和各个医疗机构落地。 此外,我们还可以解决开放世界的问题。比如电网问题,突然电线上挂了东西 ,这种情况没有训练过,我们的多模态的模型就能够提供解决的能力。比如说这张照片上传上去里面有什么,它直接给出了这是高压线上面有个鸟巢,并且给出鸟巢的风险会带来安全的问题。再比如,在智慧城市当中的应用,检测自行车是否排列整齐,如果放到多模态当中,它会检测出是否是放在消防通道门口等。 我们的代码助手进行了新的升级,现在的代码助手部分表现已经超过了GPT3.5 ,并且可以在25毫秒之内生成每个Token,在这之上我们增加了多轮对话、中文的编写程序的能力以及代码的中间补全等一系列的能力,并且给我们的客户开放。此外,我们不但可以写文字,还可以进行完美的代码中文注释的填写。 两个案例 用秒画生成一个三体游戏的场景,金字塔周文王的场景,我们语料可以省掉很多,大部分设计都由机器完成。 输入四维空间的入口,用文本来补全之后的场景。地下森林城市,场景的真实度很高。 著名的末日战役水滴击穿所有的银河舰队。右下角是水滴的照片。 我们现在在徐汇西岸的一个三体沉浸展,大量的概念分析、脚本、剧本、数字内容的创作,以及角色的音视频全都是用生成来完成的。并且里面还有很多的物品,比如太空药品和未来的城市线路板等等,全都是AI生成的,这节省了大量的设计师的时间。除此之外,我们还引入了包括数字人等。 另外一个综合应用是我们可以把刚才的所有应用放到手机上。我们的小模型都可以在高通的Snapdragon8上跑,我们还可以把方案更多地整合成对于终端友好的方案。 (二)数字人解决方案主讲人:商汤科技栾青 我们在上个星期五已经正式向全平台发布了商汤如影的体验版,手机在APPstore和各大手机应用商店就可以直接下载商汤如影,也正式对外发布了我们的如影百变大咖计划,邀请百位大咖跟我们共创各行各业的视频内容。 我们将1080P的内容提升到了4K,可以支持更大屏幕的内容输出,也提升了视频的直播效率,让内容流式生成、即插即用,多语言的支持也有了大幅度的提升。我们对英文、韩语、日语、阿拉伯语等多种语言有30%以上的语种的效率的精准度提升,包括进场各种复杂的效果,我们也有了更好的支持。 商汤如影是一款全站式的AI内容视频生成工具。在未来发布的下一个版本当中 ,我们不光能够定制大家所说的话,大家所做的动作,我们还可以根据大家的需要,在秒画模型的支持下,直接去生成大家希望的形象。 比如说我们现在看到的几个数字人,是我通过prompt生成定制出来的形象 第一个我想要一个意大利风格的女生,长得比较的酷一点,其他的比如亚洲有点韩式风的女生,甜美中国风的女生,定制了不同的形象。通过这种自定义形象的生成,大家可以拥有一个版权完全属于自己的这样的一个数字人IP,可以定制大家希望的网红或者需要运营的直播的形象。 除了形象可以定制之外,我们还可以让数字人唱自己喜欢的歌,大家只需要输入自己喜欢歌的音频,数字人就可以开始唱你喜欢的歌了。声音非常的逼真,也是用我的数字人的音色来唱出来的。 数字人可以让各个门店快速拥有一个数字的直播间,可以不断的复制,大大降低了直播营销的成本。那除了我们常见的短视频和直播之外,有了我们新的数字人创作工具,我们也可以做更多的事情。比如说这个就是刚才我定制的意大利相貌的女孩子,她可以开始根据我的需要在她的直播间点歌了。 除了剧本创作的能力,如影也可以读懂剧本,快速的创作视频短剧。比如在sencechat里输入的人体的10个冷知识、二人转的视频脚本,如影可以快速读懂我们生成的sincechat里面的格式,开始创作这样的一个短剧。 如影是一个非常好用的视频创作平台,同时它在不同的行业也会有属于自己的应用场景。 如影上线之后的两个月内,我们已与国内的多个头部企业,包括华为云、快手 二次元、七牛云、声网、海马云、元气未来、新浪微博等等的头部企业形成战略的合作关系,与大家一起打造云AIGC和短视频直播的合作生态。 我们也与银行、保险、运营商等多行业企业开始共同打造数字人企业服务的整体解决方案 今天借这个机会我也希望正式的宣布:商汤如影今天推出千城百业、如影繁星合作伙伴共建计划,希望通过生态的合作,在不同的场景给企业和大众提供简便易用的AI使用工具,我们一起助力行业的内容生成效率不断的提升,传播和营销的效率被AI进一步的改善。 (三)物和场景是如何用AI生成的主讲人:商汤科技王子彬 4月10号,作为日日新大模型的应用,我们发布了3D内容生成的平台琼语和格物。那么经过这三个月的迭代,我们无论是在算法技术提升,还是在应用平台对接,还是在产业赋能上都取得了一系列的进步。 首先,琼宇是一个进行大规模场景的数字建模的一个平台和工具,它可以实现多达多平方公里的重建的神经渲染场的技术,经过这三个月的时间,我们已经得到了大规模的提升。为了这一次演讲,我们特别重建了在我们这个会场世博中心附近的一个几平方公里的建筑群。 通过这段时间的迭代,我们的精度已经达到了厘米级,它的室外场景每1万平方米,它的精度可以达到仿过厘米的误差。而在室内场景为1000平米,它的精度的误差可以控制在一个厘米。 同时我们的生产效率也得到大幅的提升,重建效率提升了20%,一个十一百平方公里的这个区域,我们只用38个小时就可以渲染出来,重建出来同时我们的渲染的效率提升了50%,我们现在可以用一张4090的卡实现1080P的渲染的一个实时的推流。 同时,新的NERF实现了一个大的资产上的提升,它可以去输出我们的NERF的模型,可以输出我们的Mesh的模型,同时还可以实现深度和法向量的整个的提升。同时我们融合了整个大地的CIC、GCS大地数据的同步的对齐,还可以实现地空数据的融合。基于这样的一个数据的融合,我们就可以实现现在数字孪生应用的整体的高效率、高性能、可应用、可交互的这样一个基座。针对这样的基座,我们就可以发布琼宇2.0数字孪生的应用平台,我们以正在推进的上海临港中心这样的一个平台作为案例。 我们可以通过琼宇产生的底图实现整个POI信息的叠加,临港附近的信息可以一目了然,因为我们这个是NERF的3D实景地图,我们也可以进行整个地块的NERF的编辑、剪切和去除,我们可以把这一块模型整个从空间中拿掉。同时我们可以在空间中实时的测量任意两点之间的3D信息,无论是长度、宽度还是它的面积信息都可以精准的获取。 另外如果我们去除了这个地块,我们希望看看它之后可以用来干什么?我们可以把现有的Beam模型进行融合,传统的Beam模型和我们的NERF的实景模型可以融合在一起。可以在进行的城市规划中实现方案的比对,用地的规划以及 投资的测算等多方面的用途。同时,在智能安防场景,我们可以和真实的摄像头的视频流进行3D空间的融合,我们就可以让城市的管理者通过一个3D的空间去实时感知到我们2D摄像头的实时的推流的人和空间中的,车流是如何来进行的。 同时我们也和商量sensechat的大模型进行融合,我们可以让这种复杂的3D空间的操作,通过我们的语言的模式去寻找最近的这个停车场,最近的楼宇,并且可以找到这个不同模块,不同地块的用地的一个属性。日新的模型通过琼宇 、通过商量就可以变成一个三维空间的AI助手。 琼宇2.0在这几个月的时间里,也在多个场景里边,包括城市规划场景,包括