AIGC什么时候火起来? AIGC(AIgeneratedcontent)去年上半年开始有话题度,去年上半年出现了“文本生成图片”比较火的概念, (AI可以精准的理解输入文本的含义,并精美的生成图片,在10张中有2-3张质量很高),最早的参与者是midjourney、stablediffusion 等公司,在学界和产业届都有声音。当前国内很多公司(美团、字节等)也接入了画图的功能。下半年时,AIGC范围更宽泛。 之前主要是文本生成图片,其实AI对文本理解的要求度没有那么高,只要知道每个物体对应的是什么,就可以画出不错的图片。下半年出现 chatGPT,可以精准的理解人类提出的问题并给出回答,并且交互过程和人类的交互很相似(有举一反三、 推理能力),形成了很强的AI能力。从那时起,AIGC的概念更多是AI可以从很多角度理解内容,产生高质量的文本和图片,可以被认为是更宽泛的概念,即生成式 AI(各种类型理解并生成输出的AI都属于这一类范畴)为什么短时间内AI能力变强,和之前的区别是什么?文本线看:15年时做的NLP都不太智能,比如做机器翻 译时需要叠加很多中间任务(词性识别、主体的识别、主谓宾识别等),通用性很差。但现在用chatGPT中译英,直接就生成了,是真正的高级通用生成模式。非通用 到通用这一过程,主要是如下的几个变化产生:1)2017年论文发布后transformer出现,即高效率利用矩阵乘法做复杂运算,让原本文本领域可以更高效的并行化(因此可以真正堆高模型参数,GPT3参数量是1750亿,之前不是不想做到1750亿,是模型结构和算力有限堆不到这个量级,只有到这个量级才有更好的效果。)2)基于 transformer最早火的是Google的bard模型,质量不错,但有问题(需要上游任务迁就下游任务,比如做机器翻译,需要把下游内容专门做一个训练集交给模型去刷新参数,这也意味着模型还是不通用),但是chatgpt做各种类型任务都是没有时间缝隙以同样速度产出的,这是bard做不到的。这也是openAI通过GPT框架真正做好的事情,即GPT框架非常擅长自回归的生成(类似于最早的股价预测,以最近的历史信息为参考进行平滑),人类说话上下文有一定关联,GPT用这种思路进行生产(最适合NPL生产的方式),GPT在这条路上不停训练,就产生质变,出现了一个真正的通用泛用的框架。质变指模型的突现能力,比如某些任务在小模型情况下只能做到30%-40%,但一旦量级达到多少参数,效果一下子飙升到80%左右。机器的智能不是连续发展,是量变产生质变的情况。文字走到今天,就因为选对了框架,一步步量变产生质变的过程。 图片线看:15年有AI换脸的风潮,当时的模型是对抗生成网络GAN模型,但生成结果不稳定(对抗用的类似于博弈论,但最后不一定能收敛到纳什均衡)。diffusion model扩散模型解决了这个问题,它可以把这一类任务做得非常高分辨率,且输出结果稳定。图片线是21年从 GAN模型转变为diffusionmodel后效果就非常好。接下来技术变化的方向是什么? 会在视频和3D做得更好。视频是一分钟3600张图片有逻辑的叠加,当前模型和算力有难度,视频有很多物理世界的理解,需要机器学习更多数据+算力完善和补足。未来技术路线看,图片和视频3D生成会更好。 AI的落地场景有哪些? 以生成的方式看落地场景包括: 文本/图片生成:营销(去年JasperAI公司用GPT3做了一年9000万收入)AI自动生成 营销文案,直接切到公司的营销预算。销售、客服等。但随着GPT4GPT5的发布,不够专业的公司可能会被通用大模型替代。这是很好的商业机会,但长期看壁垒不会很强,未来壁垒可能是用户数据的积累,才不会被通用大模型被替代。此外,机器语言代码等生成,提升写代码效率10%-20%,对IT行业提效明显,前景很好 游戏中的剧本、电影的剧本、新闻场景(美国美联社、雅虎等70%-80%的快速通报是AI生成的)游戏/电影中重复劳动/早期找灵感的过程可以用AI来做,从而降本与提效 成为新的交互方式:未来如果大语言模型生成,可能会形成自动调用工具的能力。比如GPT3.5目前有了耳朵, GPT4加入了眼睛,未来可能有手(捣鼓工具执行任务),这是随着plugin工具是可以预见到的变化,商业机会很大。大模型相关公司海外方面 最有名的是OpenAI(top1),工程能力、科学设计能力、产品推出等方面都是最好的,与微软合作,office套件集成AI等商业化会更顺利 Google、Meta也可能做好 小公司:Deepmind(OpenAI此前创业的老大哥,擅长强化学习);Anthropic(团队为 OpenAI的原版人马)国内方面 互联网公司:百度、字节、腾讯、阿里等,已有路径下追到3-3.5很乐观 创业公司;研究所(背靠清北国家师资和算力支撑)目前国内落后海外2-3年水平,很难说差距会缩进,但至少短期不会越来越大。长期随着 H100算力的突破,可能被拉开差距 国内做大模型的卡点:1)算力,A100国内货比较少,之前大家囤了一些货,理论目前够用。下半年A800发货可以解决燃眉之急;2)数据,中文移动互联网太强,所以公域数据量差于海外。国外PC互联网生态中有高质量的博客文本发布等,国内数据是相对垂直的,数据上限有差距;3)清洗,国外AI学界话语权太高,发论文要清洗数据集,国内学界话语权比较低,在数据清洗方面需要很多时间和精力补足;4)AI需要很强科学工程和科学素养的人才,国内在顶级人才差一些,大部分在国外,国内人才密度存在缺陷。 Q:大模型的成本拆分? A:训练一个GPT3模型,大概成本未300-400万美元,是一次性固定成本,如果第一次失败,就需要多次训练。推理端成本:可变成本,生成一张图或一轮对话,是1美分左右成本。当数据访问量达到亿级别,成本在百万美元左右。短期成本集中在训练环节,长期成本集中在推理环 节。 Q:国内创业公司是否可以接入GPT3.5? A:国内有小的创业公司在用类似3.5的能力,通过海外程序代理或者单次租海外的服务器 (需要翻墙),这是短期生态(短期接或复刻类似的能力,目前主要是做早期的数据积累和反馈积累),长期不太可能实现。商业模式达到一定规模后,违反了 OpenAI的禁令。这个禁止也是给了国内大模型商业的空档,未来长期创业公司肯定是接百度字节等模型。 Q:有了AI工具后,对营销中介、外包公司等的影响,是否这类公司价值大幅降低?A:开放问题,目前没有明确的答案,但很可能会发生。随着大模型能力越来越强。公司原先的壁垒可能不再是壁垒,除非找到独特的切入点,利用好数据,不然可能出路不太明晰。Q:国内外模型的状态?模型之间的差异?算力在不同行业中是否有分类? A:模型方面,国外都比较接近,OPENAI最前面,但海外模型都是GPT3.5-4左右水平。国内模型,拿得出手的是GPT3左右水平(20年 OPENAI的水平)。模型本质差 异不大,结构比较接近,但细节上openAI做得更好 (e.g.:推理逻辑) 算力分类没有那么细,芯片从设计到流片到最后的磨合使用要7年左右的时间,行业定制不太可能。目前可以评估算力的层面:1)训练芯片,对算力精准度高,TPU和 GPU最好;2)推理芯片,精度要求不那么高,国内公司在努力做。可以分为云端推理和边缘端推理(地平线),大模型主要使用云端推理芯片。 Q:大模型会不会对很多细分行业AI降维打击?大模型整合所有行业的可能性?A:有可能,但不是所有行业。如果某一类场景有自己专用数据且不那么公开,对精度要求高,比如人脸识别,大模型可能拥有做不到95%+准确率。高精度和高专用数据的,不对通用性要求很高的,不太容易被大模型颠覆掉。如果专业壁垒不那么高可能会被颠覆。Q:算力国内外的差距?国内追赶难度?A:追赶难度可能会变大。算力差距让我们成为大模型领域的追赶者,这是确定性的事情。差距是否会越拉越大,现在不能定论。短期还好,A800要到货了,和A100差距不是很大。但是H100出现的话(能力极强,但国内公 司拿不到),可能就会差距越来越大。人海战术堆服务器不可能,芯片的传输能力有限,老的芯片在该种场景下作用有限。 Q:AI对中国算力、服务器的拉动程度? A:短期国内还在训练端,本质问题是市面上只有这么多GPU,不会爆炸式增长,服务器需求也不会爆炸式增长。等未来大模型训练好,需要部署更多芯片做推理+A800顺利供货,推理端需求会暴涨。展望5-10年,大模型部署到智能设备上,会有很多推理和服务器需求的暴涨。 Q:未来是否会出现全新的OS操作系统,是以语言为基础的交互系统? A:有可能,未来可能会有一种功能,即AI自己打开很多APP,帮我们做好任务的安排。目前很多数据没有被用起来,如果更多数据被用起来,就有新的交互方式。目前卡点在时间,目前很多大模型在边缘端推理不了,手机芯片不支持大模型(500-1000亿)量级推理,顶多是文本生成图片的推理(10亿参数)。抛开壁垒和难度,是看好这个方向。 Q:国内几家做大模型机构的进展?投入节奏?A:大家都在尽量做投入,关键不是投入多少,而是提高优先级之下,有多少资源可以调配。互联网大厂已经在努力调配资源给大模型,算力上字节稍领先,百度腾讯阿里算力储备还不错,但都和国外公司的差距比较大。人才上,字节本身产品AI驱动,理论上有人才和性能部署的后发优势。百度有先发优势,文心一言产品在及格水准;腾讯阿里也能做出来。 创业公司:投入度主要看融资能力,这一波热潮很高,一级市场给的资源倾斜度很高,可能做成,但未来会收敛到几家。研究所:智谱华章、智源研究院,清北背景,做TOG大模型方案(背后有师资和政府算力)Q:百度发布会上提到的架构指什么?大模型中算力、数据、算法中哪个是瓶颈,最关键的 是哪个?A:百度架构指的是部署深度学习神经网络的框架(飞浆),指的是在芯片上如何更好更方便更快捷部署大模型的能力。但客观来说,没有这个架构国内公司也可以做,国外有很多开源框架支持这个事情,这不是必要的事情。 短期瓶颈是数据,中文互联网数据没有清洗好,数据不互通,很吃时间和金钱,是短期卡点;长期看,算力问题可能比较大,H100出现后差距可能会拉开。人才是自始至终的。 Q:Plugin未来的生态是否已微软自己为主?Plugin插件是否可以在第三方入口展现?A:plugin非常看好,抢了很多创意公司做得事情,使得chatGPT能做得事情更多了。这些工具不完全是微软旗下的,不是一个闭塞的商业生态,类似于APPstore。至于未来是否接入中国第三方公司,中国公司不太可能接入这种API,openAI不能在中国使用,如果有类似的中文大模型是可以用的。