星环科技机构调研报告 调研日期:2023-03-01 2023-05-09 财务总监、董事会秘书李一多,公司智能分析工具产品线负责人杨一帆,证券事务代表赵梦笛 2023-03-012023-04-30 特定对象调研,现场参观公司会议室 兴全基金基金管理公司- 互动交流环节1、请先介绍一下公司智能分析工具产品线的发展情况 回复:大数据是以全生命周期为目标的,在智能分析这个领域,公司也是做端到端的全流程。公司智能分析产品的核心点是从数据的采集、样本标注、建模分析到机器学习建模出来的模型的整个上架流程,以及运维管理、销毁、数据流通等,构成了一个完整的链路。早期,公司的智能分析工具业务只在分析那一小块,后续逐渐地把整个包括样本的自动标注、机器学习的构建、自动深度学习、运维平台等进行端到端的全流程的搭建并进行完善。公司做的是PaaS层而不是SaaS层的产品。 2、公司的AI产品是怎么进行商业化的? 回复:公司的Sophon产品目前在金融领域的用户会比较多。因为本身金融行业的技术人员能力比较强,他们在有了数据平台以后,会希望有一款智能分析工具自己去建模分析,场景上例如智能营销、反洗钱等都有涉及。此外,在制造业公司也有一些客户,例如石油石化等流程工 业,客户会将制造、生产环节里面催化剂的配比进行建模调优,从而提高整体的产能。因此我们智能分析工具能够帮助客户提高工作效率或者制造效率,或者带来收益上的增加。 公司Sophon产品的定位是一个偏平台层的产品,因为对于不同类型的客户,他们的IT建设、数字化或者智能化的成熟度是不一样的,因此我们会考虑整个数据分析流程,从数据采集、标注管理、数据的建模分析、模型的运维和模型的持续效果的提升整个全生命周期的管理。举例说明,比如对金融的营销来讲:第一步先用公司的Sophonbase产品进行建模,或者我们也提供让客户的业务人员用拖拉拽的方式进行建模。第二步,构建出来的模型它需要不断地进行一个业务提升,因为数据在变、人在变、市场也在变,那么这个时候就需要一个持续运维平台,公司的SophonMLOps的定位就是对构建出的模型不断进行提升,进行统一纳管、统一监控、统一评估、统一解释等。对于我们的一些客户来说,无论是金融或者能源、政府行业,他们其实采购了大量的SaaS类型的垂直应用,不同的厂家有不同的模型和不同的建模方式。因为公司的产品是偏平台侧的,这时候公司的产品就可以将这些零散的应用模型进行统一管理。 3、公司的MLOps平台接公司自己自己的大数据基础平台产品可能是最自然的,可以接其他第三方的产品吗? 回复:是没有问题的。第三方的分为很多种,可以是单纯的文件系统,可以是数据库或者大数据基础平台,我们都是可以接的。 4、如果之后客户需要一个大模型,我们怎么办? 回复:这是一个很典型的问题。现在大家都在说大模型,美国在这方面还是排在第一梯队的,像ChatGPT,大家现在基本上只能调API来使用 ,但如果这么去使用,数据安全怎么办?隐私计算怎么办?另外一点,这是一个通用的大模型,但是我们所有的客户采购或者是每个行业客户自己使用的时候,它都有具体的场景,它一定是一个垂直、很窄的东西,需要在这上面去加上自己的行业知识、自己的知识库、自己的处理方式,然后再新建一个符合客户需要的接口,有个加工过程。这时候就会涉及数据安全和如何自建这些问题。 目前市场上有一些开源的大模型,以及在国内的,像百度等大厂及一些高校的科研团队在从事大模型的研发。当前看比较安全的一条路,是将这些大模型进行私有化部署,因为这样就不涉及数据出域,不会违背国家关于数据安全的法律法规,不会泄露自己的商业秘密。这种情况 下,公司提供的这种比较坚实的一个智能分析的底座去做这种分析,将资源进行分配,然后在模型上进行一个持续迭代,才能做的比较好。例如量化投研,信息一定是滚动的非常快的,但是如果用ChatGPT做量化投研,因为它是没有很好的合规的办法获得实时的信息的,需要客户不断加信息进去,才能得到一个比较好的效果。因此这个领域就需要一个坚实的数据分析的底座,而且是要能够不断地持续运营、持续训练地一个底座去实现它的效果。 5、私有云部署看起来跟大模型之间是可以兼容的。现在看起来大模型的算力需求很强,如果私有化部署的话,我们本地是不是没有很多机房去支持它的算力? 回复:大模型有两个趋势,一个是把模型越做越大,另一个是对模型做持续提升,但不需要进行完整的、端到端的训练,即只要加一些数据、提示等进行精训、或者一些推理就够了,这块也是公司的MLOps产品能够发挥作用的地方。因为在第二种情况下,它所需要的资源实质上就是一个持续提升的一个过程,而不是重新训练的过程。重新训练需要建非常多的资源,而持续提升的话,资源相对而言较小。 6、能否简单通俗地解释一下:大模型,最后落地到具体行业,可能是一个大模型训练完了之后,再用垂直行业的一些数据去训练。这个步骤是在私有化部署的过程做的,而大部模型是在公有云,这个中间是如何把大模型映射出来的? 回复:如果把私有化部署的某基线“大模型”认为是一个小孩子,那么他的特点是:具备一定的通识和学习能力。在垂直行业中,可以使用客户的行业知识教他回答相应问题,例如:现有的数据库、大数据平台的知识。这就需要有较多“提示工程”方向的工作。提示是一个比较复杂的事,需要大量的工作。传统的方式是做预训练,就是不停地灌一些新的数据知识,让这个小孩子学的更多;另一种方式是设置很多的问题指令和答案,让他变得更加适配你这个行业。 7、大模型私有化部署需要的算力大概是在一个什么量级? 回复:例如像开源的ChatGLM,它有6B和130B,利用LoRA等不断出现的技术大概在10张A100卡以内就能精训(Fine-tune)和推理。 因此,对于这种大模型,行业里的客户是有技术条件去做私有化部署推理这件事情的;同时,目前大模型的小型化也在快速推进,可以预期的是它需要的精训和推理计算力门槛也在慢慢降低的;再次,由同行经验,对于大模型来讲,第一要求的是有高质量的数据,第二是看模型的参数大小,第三才是算力。