您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:商汤(00020)科技董事长兼CEO徐立-港股-调研纪要 - 发现报告
当前位置:首页/会议纪要/报告详情/

商汤(00020)科技董事长兼CEO徐立-港股-调研纪要

2023-06-06未知机构羡***
商汤(00020)科技董事长兼CEO徐立-港股-调研纪要

商汤科技董事长兼CEO徐立:算力的价值——AI大装置能力解析 刚刚听了书记的介绍,我也心潮澎湃。临港超前布局了整个算力的基础设施,特别是算力的聚集带来 了新的生产范式。 今天我想谈一谈,最近半年来,我们基于大装置、大算力取得的一系列新的成果。算力是新时代的能源,某种程度上,算力决定了市场的竞争力。 这是一个很有意思的3D场景,以往构建这么一个大片区的场景,是需要很多的人工介入,而通过大算力的支持,结合神经渲染技术,能够在数小时里完成大片区的渲染和交互应用。 4月份,我们发布了“商汤日日新SenseNova”大模型体系,当时,我们提出了新时代的算力、算法和数据之间的关系,可以用新的等式来表达。算力其实是整个模型能力的表达,算力等于算法或者说大模型的参数,去乘上它所处理的数据量。大模型时代参数越大,乘上的数据量越大,所需要的算力就越大。 接下来分享一下,我们基于临港AIDC取得的一些成就。这些都是公开发布的大模型。首先我们在3月份的时候发布了开源的书生2.5模型,这是一个多模态、多任务的通用大模型,这个模型将感知智能推到了一个新的边界,能够处理大量通用的感知任务。 举个例子,给一张简单的钟表图片,它可以识别出来现在是几点。类似于这样的感知和图片的标签,其实在诸多应用当中都有非常重要的推动作用,后面也会讲到。 而且这样一个模型在三大主流视觉任务检测、分割、分类下的20多个公开数据集上面全部领先。包括后来发布的一些新的通用视觉模型的准确率,都没有我们当时开源的书生2.5的成绩高。 我们再来看看第二个,人工智能赋能基础科学,即AIforScience。在气象气候预报任务中,全球中期天气预报是最重要的预测任务之一,同时理解地球本身复杂系统的一个运行,一直是人类的最终极目标。 这是我们今年4月初发布的“风乌”AI大模型。这个模型建模了全球所有区域、高分辨率、37个大气高度场的全要素气象数据。用2018年的回溯数据来做预测,可以看到风乌的中期预报性能明显优于优于DeepMind的GraphCast模型,将全球中期气象预报的可用性能提高到了10天以上。得益于对高分辨率全球大气数据建模,我们可以解决一些突发的天气预报预测,可以准确地预测台风轨迹。这就是我们的大模型在这半年来带来的一些新的成果,在很多产业应用也会获得突破。 这是我们在今年4月份发布的感知决策一体化的端到端自动驾驶解决方案UniAD,也是今年CVPR最佳论文的候选。首先,原来传统的无人驾驶,基本上是把感知、决策、规划分开,用不同的AI模型处理不同的任务。而在我们的大模型的体系下,将环视的图像通过Transformer映射得到BEV的特征,将感知、决策、规划在整体上做到了端到端的优化,能够用一个统一的通用模型来解决不同的模态问题。基于这样的解决方案,我们在一些数据集上超过了现有行业里面的最好成绩,比如车道线的预测准确率提升了30%,预测运动位移的误差降低了近40%,规划误差降低了近30%。因此,如果借助这样的一体化设计,未来无人驾驶会迎来更好的体验。 这是我们在5月份发布的另外一个大模型——遥感大模型,利用书生2.5,可以处理不同的影像类型,不同的影像时间和谱段的遥感数据,并使它的泛化能力变得更强。我们推出的SenseEarth3.0遥感大模型,涵盖25个语义分割模型,过去运行25个类别需要25个单位时间,现在只需要1个单位时间就可以完成25类数据的解译,大幅节省用户的时间成本。同时在解译精度方面,其中地物分割能力在百万级图斑验证集上的平均精度超过80%,直接满足各类业务场景的应用。比如这样一张遥感影像,我们的遥感大模型能够以非常快的速度,把数十类的标签打上去,从而完成各种类型的解译任务。 接下来讲到开放世界的决策问题。我们在5月份基于我们的书生2.5,又发布了通才AI智能体GITM (GhostintheMinecraft)。大家知道Minecraft《我的世界》这是一个非常流行的游戏,大概已经有2.38亿的销售量,月活超过1.4亿人次,也是各个游戏公司,以及像英伟达、DeepMind、OpenAI都在研究的游戏。 我们之前从《星际争霸》的智能决策转到《我的世界》里面,也同时完成了一个世界第一的壮 举,就是我们的引擎在里面能够收集到完整科技树的262种道具。举个例子,英伟达同期方法只能收到63种,OpenAI收到70多种,我们可以把场景当中所有道具全部收回来,这就是通过大模型的感知+决策,能够起到很好的效果。 同样我们在获取钻石的任务上面,较之前最佳成绩(OpenAI提出的VPT方法),把成功率从20%提升到67%点多。这就是在我们临港AIDC上,推动的又一个的模型突破。 4月份我们做了“商汤日日新SenseNova”大模型体系的发布,其中最关键的就是自然语言的大模型,在各类的模型测试中,包括开放式的对话、问答,以及一系列的综合性考试评测集中,都取得了非常好的效果。 我想说的是,模型的评测并不关键,真正最关键的在于,模型本身是需要你跟它做交互,甚至是在更多情况下,知道它给出答案背后的逻辑,才能真正意义上体现大模型的能力。 举个例子,我们用不同的语言来说“你好,世界”,然后再给出这样的一个表格设置,所以它很简单,首先考验它的知识量,其次还有一个结构化的输出。 第二个问题,这个相对复杂一点,比如让巴菲特、成吉思汗和焦裕禄这三个人发生关联,完全风马牛不相及的三个人。首先大模型能够理解出来谁是谁,巴菲特是投资家,成吉思汗是军事家,焦裕禄是优秀的共产党员。但除此之外它还真正意义上能够找到他们身上的共同点:追求卓越、坚韧不拔,并且他们同时都关注社会问题,并且都拥有着很强的领导能力。所以可以看得出来说,除了理解这几个人的简单名字和故事之外,还能够真正意义上抽象出来背后的相似度。 第三个问题,是我们展示过的多轮对话的超强理解能力。这篇文章讲的是沈从文第一次去上课,没有带课件,然后很紧张的一个故事。通过我们的问答,它也总结了沈从文在这个过程当中的表现,甚至我们可以问它沈从文为什么没有带课件,是因为他自己觉得已经准备好了,所以没有带课件,并且还能给出人物的关系,比如他是徐志摩介绍的等等,这一系列的内容,都可以通过一个简单的文本就把背后复杂的联系给解释出来。所以,未来如果给出更多这样的一些案例的话,其实是可以用机器来给出最后一个总结。 今天早上,我问了它一个关于金庸的很有意思的问题,我说前段时间去杭州看到某地有金庸的一句话,“灵隐九里西湖路,云松伴青桑”,因为不是在一个开放的地方,所以我相信这句话其实网络上很少,它应该没有读过,所以我就问它知道后半句吗? 我们的引擎就回答,“灵隐九里西湖路,云松伴青桑,烟波浩渺入望眼,白帆数点孤山傍。”我一听以为是真的,好好研究一下,发现其实不是。但即使不是真的,也可以看到它描绘了一幅美丽的画卷,从灵隐寺到西湖,几艘小船在水中荡漾,以及孤山的场景。他给出的这种深层的东西其实是很有意境的。 我说其实原句我看了一下,应该是“灵隐九里西湖路,云松伴青桑;藏剑影,隐刀光,入门闻书香”。那么我说,你能不能为此写对一个下联,他说,当然可以。这样它写一个下联叫“清音十里钱塘潮,海鸥逐浪飞;听琴韵,观舞袖,临窗赏月明。”那么它下边是用“十里钱塘潮”,对“九里西湖路”,实际上它既知道西湖在什么位置,钱塘在什么位置,并且能够把整个的“入门闻书香”对应到“临窗赏月明”,所以这就是整个大模型的能力,不在于说它读没读过这句话,而在于在交互当中真正是可以展现出来对于事情背后的理解。 除此之外,我们用这样的大模型,还赋能了代码的协作。商汤的人工智能代码助手,其实是支撑起来了我们行业大量的代码服务应用。这是除了GPT以外的,国产的性能最高的一个代码助手,同时我们也开放我们的接口给到合作伙伴。 在过去的一个月内,我们把代码助手通过大装置,将推理效率提升了619%,也就是它可以用很低的成本完成代码的读写翻译。那么,未来我相信程序员的新的二八定律的诞生,也就是未来80%的时间都是用来跟机器去做对话,20%的时间才是真正的写,机器会完成我们大部分的人力工作。 这是“商汤日日新SenseNova”大模型体系的整个路线图,我们从视觉、自然语言、多模态、AI内容生成,以及智能决策。我们在4月份的基础上,又画上了3~4个新的点,并且我们用这些大模型赋能了我们一系列的产品。包括“商汤如影SenseAvatar”数字人视频生成平台,“商汤琼宇 SenseSpace/格物SenseThings”3D内容生成平台,“商汤商量SenseChat”中文语言大模型应用平台、“商汤秒画SenseMirage”文生图平台等,也希望我们有更多的产品能够接入到“商汤日日新 SenseNova”大模型体系当中。 今天,我们临港AIDC中已经有接近3万块的GPU,这也得益于临港的前期有一个面向长远的布局,所以我们的基础设施赋能了大量的成果,而这也只是在半年之内发生的成果。我们目前的算力已经达到5000P,在这之上我们相信未来可以有更好的开发者效率,并且都能够支持更多千亿规模的大模型算力训练。 当然我们还有很多外部的客户,其实也取得了非常好的成绩,以后有机会再给大家分享。我们有超过40多个核心的KA客户,包括在基础科研领域、大模型领域,以及医疗等细分应用领域,都取得了非常显著的成果。我们也希望通过临港AIDC,我们的商汤大装置能够接入更多的产业合作伙伴,一起共同赋能算力新时代。