衔远科技创始人周伯文2023-06-14 周伯文,IEEE/CAAIFellow,清华大学惠妍讲席教授、电子工程系长聘教授、衔远科技创始人;原京东集团高级副总裁、集团技术委员会主席、云与AI总裁;原美国IBM人工智能基础研究院院长、IBMWatson集团首席科学家、IBM杰出工程师。长期从事人工智能国际前沿基础理论、技术研究,包括:语音识别、自然语言处理与翻译、多模态内容理解与生成、知识表征与推理、人机对话、可信赖AI及相关产业化应用。在2016年提出“自注意力融合多头机制”的自然语言表征机理,是Transformer架构的核心思想之一,被Transformer、GAT等论文引用超2000次;在AIGC领域,提出“自然语言生成算法”被引用3000余次;于国际一流期刊及顶级学术会议发表论文百余篇,总引用超15000次。 衔远科技创始人周伯文2023-06-14 周伯文,IEEE/CAAIFellow,清华大学惠妍讲席教授、电子工程系长聘教授、衔远科技创始人;原京东集团高级副总裁、集团技术委员会主席、云与AI总裁;原美国IBM人工智能基础研究院院长、IBMWatson集团首席科学家、IBM杰出工程师。长期从事人工智能国际前沿基础理论、技术研究,包括:语音识别、自然语言处理与翻译、多模态内容理解与生成、知识表征与推理、人机对话、可信赖AI及相关产业化应用。在2016年提出“自注意力融合多头机制”的自然语言表征机理,是Transformer架构的核心思想之一,被Transformer、GAT等论文引用超2000次;在AIGC领域,提出“自然语言生成算法”被引用3000余次;于国际一流期刊及顶级学术会议发表论文百余篇,总引用超15000次。衔远科技是全球领先的致力于链接消费者与商品的人工智能公司。公司自研AI大模型,数百亿级参数规模与独特的训练让大模型在具备通用能力的基础上,更擅长理解人与商品。通过ProductGPT,以生成式人工智帮助企业与消费者实现从商品洞察、定位、设计、研发到营销的创新。目前,公司产品已应用于食品饮料、3C、家电等行业场景,服务京东、蒙牛等众多头部客户。 垂直大模型的底座一定具备通用大模型的能力 Q:垂直大模型和通用大模型是人工智能的两个主要发展方向,您如何看待这两个不同发展方向的商业机遇与挑战? 01 周伯文:这两个方向有很多共同性,我觉得不应该割裂地看待。比如说衔远做的大模型,是在具备通用能力的基础上,特别关注如何连接产品和消费者,企业如何通过产品创新更好的满足消费者。 多跳推理、基于上下文的学习能力极度增强,是大模型系统能够产生社会价值和商业价值的前提之一,但是只有这个前提还不足以产生高价的场景。我们观察一下ChatGPT这类通用大模型的回答,可以说是外行看着像内行,内行看着像外行,专家认为是剽窃,普通人认为是创造。ChatGPT应用范围广,更适用长尾场景。而长尾场景意味着低价值场景,它的价值随着应用范围广度的增加呈下降趋势。那么,如何创造高价值场景呢?比如针对连接产品和消费者这个专业领域,如何更好地做产品创新设计、如何更好地感知消费者需求、如何更好地营销发布,既需要模型底座具有多跳推理能力,也需要专业场景里的专业知识。 Q:您能否说明一下您开发的大模型底座是什么底座?产品服务更偏向于垂直还是通用? 所以我认为垂直大模型的底座一定具备通用大模型的能力。打个比方,假设一个大学毕业生才有能力被训练成一个好的产品经理。大模型底座就是大学毕业生的基本素质能力,通过专业训练可以具备更强的专业能力。 周伯文:我们具备的是组合的能力,有一个具备通用能力的大模型,这个大模型尤其在商品和消费者连接的领域有专长。我们有37项大模型评测指标,其中2/3是推理能力、计算能力等通用能力,还有十几项专门应用于产品和消费者的连接,以实现衔远的使命愿景——“让每一件商品都应需而生,让每一个消费者都得偿所愿”。 这个使命愿景源自德鲁克的一句话。德鲁克说企业只有两件事要做,一是创造有差异化的产品,二是让消费者认可这个差异化并愿意购买。我把这2句话拆成了5个D。一是Discovery,发现和洞察市场上的消费趋势。了解消费者需要什么样的产品,供给侧有哪些产品,如何满足消费者需求。二是 Define,根据企业能力去定义产品,做出差异化。三是Design,包括产品外观、供给侧营销策略设计等。四是Develop,驱动整个研发流程,将设计变为产品。五是Distribute,通过营销使消费者更高效地找到产品,拥有更好的使用体验。这5个D都要求有专长,比如Discover是有能力理解消费者在不同场景下与商品之间产生的互动,Design是有能力做产品定位设计等。 Q:这5D在实践中具体服务对象是谁?如何进行服务?周伯文:前4个D服务于B端,最后1个D服务于C端。 先说B端服务。自有大模型去分析大量的商品参数、不同商品之间的相关性、消费者的使用场景和体验等,形成一定理解和深刻的洞察。有了这个洞察之后,通过上下文多轮对话系统——ProductGPT和企业的企划、市场、产品人员对话,分析市场趋势、流行产品以及消费者的应用场景和体验,启发企业去设计更好的产品。这些问题都需要通过非常深度的头脑风暴得出专业性结论。如果去问ChatGPT,得到的回答多半是一本正经的胡说八道,或者没有内涵。 C端服务是帮助消费者更好地匹配想要的商品。假设消费者身处一个新城市里,我们可以帮助他理解这个城市,了解有什么特产,类似的其他消费者有什么体验。 总结来讲,我们做的大模型和ProductGPT是一个具备通用能力,又擅长在供应链角度理解从产品的设计创意、生产制造到到消费的整个环节,可以帮助更高效的连接产品和消费者,助推完成供给侧结构性的改革。消费者的诉求,包括对现有产品的不满意都能够被AI理解,并经由AI的理解传递给人类去设计更好的产品。企业在生产产品之时就准确知晓消费者所好,消费者与商品的匹配达到极致高效。 02 大模型将世界知识压缩后,再通过深层次的工作重构 Q:要实现极致高效,您认为大模型的核心是什么? 周伯文:大语言模型(LLM)的核心是通过对下一个词进行预测把世界知识压缩到一个大模型内。这也是GPT3、ChatGPT做的事。企业的大模型通过预测人和商品在各种场景下的互动,把商品品参、人的情感体验、文化符号等压缩成一个模型,这会导致我们对人和商品的理解与原来完全不一样。原来我们理解人是最小单元,商品是最小单元,人和SKU做匹配。现在新的大模型将世界知识压缩后,再通过深层次的工作重构,能够理解很多东西。新的大模型下,人具有更多层次的、立体的、不同场景化的维度,比如周末家庭出游与日常同事相处的需求是不一样的。在商品层面也不再是一个简单的SKU,而是很多品参、材质、功能、文化符号的组合。只是学习消费者买了哪个SKU,这个深度是不够的。比如说一个人口渴去买了一瓶农夫山泉饮用水,新的大模型深刻理解消费者场景体验后得出结论:买这瓶水与品牌、包装等都无关,这次消费只是因为爬山口渴。 03 新的人工智能时代没有办法做跟随者 Q:自2021年底从京东离职后,您转去学术界,担任清华大学惠妍讲席教授、电子系长聘教授。今年2月您在朋友圈发布一则AI英雄帖,招募合 伙人一起打造中国版 ChatGPT。是什么契机促使您开启AI领域的创业呢?您的创业方向以及对标产品是什么? 周伯文:我长期深耕于大模型领域的公众号新价值人前沿研究。经过20年留美回到中国后,又做了很多年人工智能在实体经济方面的应用。我深刻认识到,人工智能技术需要不断的突破和创新。底层技术在不断迭代,我们一定要有自己的思路,而不是跟在另外一家公司的后面。 原来移动互联网时代的创业,更多是CopytoChina。国外有一个好的模式,中国通过Copy小步快跑实现快速迭代,通过更高的效率来获得市场的成功。但现在情况不同,我们需要去思考人工智能底层技术的原理,以及需要解决什么问题。原理与实际问题要深度的融合思考。 Q:总结一下您在做的大模型和其他大模型相比有什么特点? 比如要解决刚才讲的德鲁克提出的两个最重要的问题,我们需要思考什么样的人工智能技术能够做这个事情,而不是说其他GPT可以做歌做诗,我们也跟着做。我们可以有这个能力,但那不是我们追求的。只是跟随的话,我们永远不可能去创造性的工作。如何问出好问题,如何有自己的思考,如何有差异化的技术路线是非常重要的。我认为衔远科技既融合了我们技术的思考,也有差异化的商业化路线。 周伯文:在具备通用能力的基础上,能更好地解决专业性的问题。我们能找到深层的、真正的价值创造,并通过深层的价值创造去倒逼底层的大模型技术不断迭代,比如说思考怎样更好的融合多模态。