近期随着微软将ChatGPT嵌入搜索引擎,AIGC继续成为市场焦点。市场此前认为AIGC可能是一个类似于元宇宙的主题,但当看到产品和商业模式的陆续落地,慢慢地感受到AIGC将为技术、产业产生更为深远的影响。 上周我们从CPO算力的角度寻找AI算力下光器件技术的预期差,本周聚焦AIGC与数据要素。 1、ChatGPT的胜利,LLM的正名之战 从技术发展上看,此前的AI较多聚焦于知识图谱、深度学习。知识图谱是一种结构化的语义库,就是把面向特定行业、特定场景的各类知识按照特定的关系进行呈现。而手动完成知识图谱过于费事费力,便引入了深度学习,然而近年来进展却仍较缓慢。而ChatGPT背后的LLM(大型语言模型,Large Language Model)却将所有任务统一到生成环节下,即通过海量数据的训练,获得对后续内容(Token)的预测。根据我们和产业界的交流,其实这种算法一直都有,但让大家惊讶的是OpenAI通过如此长时间的投入、积累、训练,将LLM用得炉火纯青、独辟蹊径。就像金庸小说中很多武林高手虽身怀多个绝技却无法登上华山之巅,而郭靖却凭借降龙十八掌多年苦练而一战成名。2020年,GPT3.0的出现也标志着LLM推动行业进入通用人工智能时代,真正的AIGC时代逐步拉开序幕。 2、数据要素——不仅是交易,更要使用 2020年起,我国逐步明确将数据作为资本、劳动、技术以外的新型生产要素,2022年更是在政策中频频提及,并快速推进成立数据交易市场。其实从2015起,当大数据概念兴起之时,国内就陆续出现过地方性数据交易平台,但因为数据隐私保护的立法、技术平台不完善,数据交易并未兴起,而今随着政策完善,数据要素价值将被进一步挖掘。但我们认为,交易只是第一步,如何使用数据才是根本。数据是一种特殊的资产,当A有一本书、B有一本书,如果两者交换借阅,那么A和B各读了两本书,这是“1+1=2”的线性关系,但当A或B将书中的知识融会贯通后,其输出往往是“1+1>2”的,那如果是10本书、100本书呢?这种价值类似于LLM模型进行海量数据训练后形成的“通识化底座”,对接各个行业后能快速形成应用,是对数据要素价值的完美呈现和商业变现,一定程度上也消除了数据孤岛问题,毕竟人工对接数据需求效率太低,只有依靠机器进行训练才能快速迭代当下海量数据并承载应用。所有合规数据的掌握者都应成为这个“AI底座”的数据投喂者和使用者。 3、AIGC+数据要素,未来信息安全的制高点 ChatGPT的兴起让全世界看到AI技术不再高冷,每个人都可以提出问题、输入数据或范例和ChatGPT互动,本质上这为ChatGPT的训练提供了海量的人工反馈,相信在下一代GPT-4中将更好地展示这一效果。从2022年开始,我们与大量业内团队交流,其焦点仍在模型与训练。即便像Stable Diffusion开源,但基于此模型产品的数据集和训练方法并不开源,类似于告诉大家红烧肉的图片,但没有烹饪过程细节,美味依然难以复现。而随着OpenAI产品、商业模型日渐完善,其飞轮效应将逐步显现,全球龙头地位将更加明显。融合了AI的通用性和海量数据训练能力,微软New Bing的推出重新定义了搜索引擎,ChatGPT联网后也会接触到更多信息,抢占信息安全的制高点。作为一种数字化的创新,且迭代速度远快于传统产业,发令枪已响,预计2023年国内外各科技大厂将陆续推出AIGC领域的产品,竞争态势值得观察。 4、伦理与监管,AIGC的新焦点 2022年11月份,我们就AIGC的法律合规问题与专业律师进行过讨论,一个简单的例子:通过DALL-E2、Midjourney生成的图片,其版权是属于“Prompt提出者”、“AIGC平台提供方”还是“训练数据提供方”?目前欧美就此问题争论颇多,版权、就业等都是焦点,目前尚未有定论。此外,在数据收集、训练中涉及到的歧视、偏见也引发了社会关注,此方向的论文数量大增,可以想象,数字世界也是人的映射,必然带有某种价值取向。 ChatGPT的快速迭代将把道德伦理与监管的问题推向台前,站在数据要素的角度就是如何用好数据、规范治理的问题,我们也将继续关注该领域的全球进展。 风险提示:AIGC发展不及预期,数据要素发展不及预期。