您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:阿里大模型纪要 - 发现报告
当前位置:首页/会议纪要/报告详情/

阿里大模型纪要

2023-04-11未知机构老***
阿里大模型纪要

1、阿里大模型背景及发展现状 阿里目前已经发布了通义大模型和多模态大模型M6,目前算法大概四、五十人。模型方面整个行业都是在做基于transformer的Decoderonly模型,还有人在做EncoderDecoder模型,但纯Encoder已经没有人在做。因为Encoder模型只能做理解,但理解的任务在所有自然语言里面大概只占百分之五、六十,还有很多开放域的任务特别是一些创作类比如故事续写或文案生产,是要靠生成模型来做,所以现在基本都统一GPT的Model。 2、大模型进展的发布时间今年肯定会有,内部现在也在筹备,今年一些大会上基本上是一定会发布的,比如4月11号的阿里云大会。但是具体做成什么样子,是否2C开放及开放公测还不太好说。目前效果应该还达不到像文心一言一样开放一个网页进行公测,其实阿里也不是做2C的业务,可能会是以2B的方向来去做宣传和PR。同时暂时还没有开放API的计划。 3、当前模型参数规模及发展目标目前模型参数是1750亿,GPT3是公司内部的参考线,其实国内没有人能达到GPT3的效果。因为GPT3本身做了很多数据清洗,其数据水平是非常高的。虽然国内都在训练大模型,但几乎都没有做很多数据清洗,都是数据拿来直接训练,所以即使宣传上模型参数是一样的,但产生效果不是那么好。目前GPT3已经不再是当前目标,因为ChatGPT和GPT4已经处于相对前沿的位置,大家可能直接拿ChatGPT的效果来做对标。ChatGPT是比较全面的能力,所以也不会拿他每一个能力都去做对标,比如并不需要写代码和做数学题的能力,可能会拿一些复杂query来做对标。 4、通用的数据清理过程及时间占比数据通用的清洗手段包括脏字符过滤、非正式文本的过滤、低质量的文本过滤等,可能会标一些高质量的文本,然后做分类。没有什么特殊的清洗方式,只是在过程中会看到一些case,不断的迭代去除掉某一类case等,是一个比较复杂的过程。数据清洗可能是占整个周期的60%以上,模型的开发和计算实际上并没有占据那么多时间。之前一般两个月迭代一次,但需要看整体开发周期要做到什么程度。 5、阿里数据的数据特点阿里在数据方面处于劣势,因为百度有网页数据,腾讯有很多高质量的公众号数据。目前2B客户的数据倒是蛮多,但这种数据质量不是特别高,同时垂直领域的数据不太适合大量的加入通用模型的训练。数据采买不一定完全解决数据问题,因为爬虫的数据量级会非常大。 6、目前大模型训练周期及算力配置训练周期不太好说,因为和训练的轮数有很大的关系,一般来说训练一次需要一个月左右。算力方面,A100的卡可自由调配大概是有两、三千,如果需要更多需要跟别人去协调。现在A100是够用的情况,还没到不够用拿别的卡来做填补的情况。 7、大模型预期落地场景目前暂时还没有很明确,现在是跟天猫有一点点合作,属于是业务的横向对接,但实际上也没有落地,只是先做了一个 case。 8、大模型未来在垂直领域的潜在应用方向如果大模型效果ok,也会用同样的方法来训练一些小模型去给到垂直领域。目前阿里云2B方向比如保险、银行和证券,还有一些政务都有机会。但目前还处于很早期,要做的话可能也是下半年基础模型先做的差不多才开始的事情。 9、公司组织架构调整后各业务线自负盈亏对大模型投入的影响目前是在阿里云智能下面,阿里云和达摩院是一个大团队,算法的人都是达摩院的人。组织架构调整之前达摩院也是自负盈亏,现在实际上业务产出也还ok,只要今年在大模型上再给投入一些新的钱进来,应该是够的。 10、和OpenAI具体的差距体现在哪些方面整体差距是非常大的,根据披露在数据上差的比较多,但实际模型上也有差距,只是没披露出来而已。因为OpenAI基于GPT3到ChatGPT具体用的是什么样的模型是不知道的。基于以上两个情况,目前最重要投入是在数据上,但从国内发展来看,即使投入很多精力去清洗的数据,模型上也没有人做的特别成功。所以数据和模型两块可能都是问题,但数据的影响会更大些。 11、如何评价百度和360的大模型能力认为360是简单做了一个版本,但在发布会上也出现了问题,其效果肯定不太好,而且从来没有听说过 360投入人力和计算资源去做这样的模型,突然间有了这么一个模型,其实不知道是基于哪个开源大模型改的还是自己训练的,如果基于开源来改,其实含金量不是特别大。文心一言公测后发现还有很多badcase,效果上特别是在长的上下文的表现上其实不是特别好。但具体原因不太好说,比如到底是因为基础模型不好还是因为微调的不好,但是肯定是哪个环节没做到位或者差的比较多,他们内部也知道这个情况。所以实际上国内的团队还没有哪个跑的特别快或者特别成功,都会有些问题。 12、国内哪家在大模型领域相对会比较有机会做出来华为和百度是比较有机会的。百度数据很多,而且有很多人一直在做这个方向,数据清洗及大模型训练19年就开始做,积累很深厚。华为也是有一些人专门在做,大模型也做了好几年。其他阿里及其他的互联网公司,虽然有一些数据,但是之前投入的精力其实很少,比如阿里在模型迭代上比百度和华为应该是慢了大概两年左右,而且大模型做出来之后是否有很大帮助其实也是存疑的。 13、非头部玩家在大模型领域的潜在发展方向非互联网一些玩家可能PR更重要一些。在模型方面不一定完全相信全力去AllIN,可能也没有训练模型的耐力和战略定力,认为大概率是短期跟风,后面可能就不做了。可能后面会用相对成熟大模型的API或者私有化部署的概率会更大。巨头肯定每家都会有一个,比如阿里、腾讯、百度都会有。