面壁智能:和知乎的优势互补2023-06-26 大模型浪潮下,一家业务稳定、已经上市的中型互联网公司想要迅速跟上浪潮,应该怎么做? 在自研和收购以外,知乎与面壁智能选择合作共建大模型,或许为「互联网+大模型」提供了第三种范式。 今年春天的一个饭局上,知乎CEO周源再三追问席上的AI专家:「我是不是一定得先通用再垂直(先做通用大模型、再做垂直大模型)?」周源的迫切一定程度上预言了知乎在大模型上的决心。事实上,在2月,由CTO李大海在知乎内部发起的对面壁智能的投决会更是以闪电速度通过。 面壁智能:和知乎的优势互补2023-06-26 大模型浪潮下,一家业务稳定、已经上市的中型互联网公司想要迅速跟上浪潮,应该怎么做? 在自研和收购以外,知乎与面壁智能选择合作共建大模型,或许为「互联网+大模型」提供了第三种范式。 今年春天的一个饭局上,知乎CEO周源再三追问席上的AI专家:「我是不是一定得先通用再垂直(先做通用大模型、再做垂直大模型)?」周源的迫切一定程度上预言了知乎在大模型上的决心。事实上,在2月,由CTO李大海在知乎内部发起的对面壁智能的投决会更是以闪电速度通过。这样的速度是应该的,「蒸汽机已经出现,如果我们是一家马车公司,这时候应该做什么?」对于已经上市、在财务上多有考量的知乎来说,自研大模型的短期投入过高、不确定因素大,明显不是最优解——这也是与知乎相似规模的公司们,在当下同样要思考的问题。而另一方面,知乎有着中国互联网世界最优质的语料(是训练大模型得天独厚的「养料」)、长期的内容安全合规经验(能弥补早期创业公司在这方面的经验不足)以及丰富的云原生经验(运用到大模型训练时灵活度更高、运营成本会更低),这些优势都将助力于一个大模型产品的打造。在接触 了大量的早期团队后,李大海发现,由清华NLP实验室的刘知远副教授所带领的面壁智能,是国内最早开始训练大模型的团队之一。后者在数据标注、模型构建以及Infra等方面,都建立了深厚的认知,刚好能与知乎的优势形成互补。4月,知乎宣布了对面壁智能的天使轮投资;二者也开始紧密合作,陆续发布了共研的知乎大模型「知海图AI」、基于大模型的对话产品「面壁露卡」、以及知乎网站上热榜摘要和搜索新功能内测。 6月初,知乎CTO李大海宣布兼任面壁智能CEO。目前,面壁智能正在寻求新一轮融资,公司的短期会聚焦于基础大模型的核心技术。李大海表示,在技术加速发展的当下,AGI到来那一天,以怎样的技术细节实现、模型是否依旧是当今流行的Transformer架构等并不重要。关键在于,质变已经发生,而团队正以最快的速度走在探索的路上。 01 三天发起投决会 今年 Q:2月份,曾传出王慧文想收购面壁智能,4月知乎就宣布投资了面壁智能,当时发生了什么? 李大海:ChatGPT出来以后(2022年底),我作为知乎公众号新价值人的CTO,是非常关注的。当时知乎很快在行业里面做了广泛的交流,去研究我们纯自研会怎么样,合作会怎么样。 很不幸中间遇到了疫情。等到真正和知远聊上已经是2月初了。跟他聊完之后,我们发现知远这边的团队做了非常多的积累,对于训练大模型有很深的认知,并且还做了很多Infra的事情。我叫他内外兼修,有这种成果其实挺不容易的。 这里有个故事。当时我跟知远是周五聊的,晚上我就召集团队,让做架构的同学Review模型架构的代码,以及Infra、推理的代码。也让我们的测评团队评测CPM(刘知远团队所做的大模型)API里面的大模型。我们把能拿到的十几个模型都拿出来去做了评测。评完以后CPM-Bee排第四,前三名都是基于GPT的。我们也看了代码,看到代码该做的优化做的比较细。 结合我自己的访谈、结合这些Facts(事实),我在星期天的时候(就在知乎)发起一个投决会。这是我作为CTO发起的唯一一个项目。 Q:王慧文这时候也已经跟面壁团队在谈了? 我打电话,说还是会选择知乎。 Q:你觉得为什么(他会做这个决定)? 李大海:他也是知远的师兄。我们在跟知远聊的过程中,王慧文就去找知远,说希望能够收购他们。他们聊完之后,可能也就隔了一天,知远就给 李大海:慧文总是知远的师兄,知远挺尊敬他的,但是他们想独立发展。同时考虑到跟知乎合作能够有一个非常好的场景。他们想的挺清楚的,挺坚定,我们也很快,推进起来就很快。 Q:你和刘知远最早是怎么认识的? 李大海:我和知远是在2016年认识的,特别有意思。当时知远还是一个助理教授,也在清华NLP实验室带学生做项目,当时的NLP项目肯定和大模型没关系了,但是他需要很多优质的语料,而语料大部分都在知乎。 他来爬我们,我们就反爬。所以他爬起来也很累。最后索性就直接来找我,问能不能直接合作?我自己的职业生涯深受NLP学术界工作的惠及 (从在Google做搜索、以及到知乎做推荐),因此我认为也很应该反哺学术界。所以当时也完全没有犹豫,请我们的律师、法务拟了NDA(保密协议),让他签了一个NDA,就请工程师给他跑数据,前后就10天左右,这就认识了。这是从2016年圣诞节前两天开始,月初协议签 Q:这份创业就是现在的面壁智能的前身,对吗? 完,数据就交付了。我们也没有要什么回报。大家在这个环节就建立了一些连接和信任。直到2022年9月份,当时参加一个活动,那时候就听知远说,他现在自己在做一个大模型创业的事情。 李大海:这个创业就是面壁智能。知远是一个很有技术远见的学者,最早可以追溯到BERT发布以后,当时他已经看到了大模型在NLP领域的应用前景,也就是大模型的潜力。 所以在2019年的时候,知远就拉着他们清华实验室的同学搞了一个「雁栖湖技术战略会」,带着NLP实验室里面重要的学生,在雁栖湖一个酒店里开了7天会。开完会以后,就决定实验室里面这些学生,其他的工作都停下,转头专门围绕大模型去做方方面面的各种研究。 到了2020年的时候,知远作为智源研究院的访问学者,提出说做LLM大模型是很重要的事,9月份在智源立项做了这个事情,11月在智源三周年年会上发布。当时其实模型不大,只有26亿个参数,相对今天来说是一个小模型,当时也算大模型。模型生成的能力在年会上放出来的时候,非常好,大家都很震惊。后来继续再做CPM1、2、3。 从2021年开始,知远就在拉着实验室的核心同学在筹办新公司,到了2022年的8月份,公司正式成立,名叫面壁。9月份的时候,公司自主的大模型CPM-Ant就发出来了。那时候ChatGPT还没出来。 对于 Q:NLP下一步的发展,学术圈是有一定共识的,但是放在当时,这事很难在产业界引起足够多的重视。 李大海:讨论是肯定有的,当时大家都知道NLP往下发展会带来更通用智能的产生。但是大家都没有时间表,很难判断这个事情到底是一年,还是十年以后发生。如果这个事10年后才发生,现在投钱干嘛?务实是中国企业能够在过去的竞争里不断取得好成绩的一个重要原因,但是特别务实,需要诗和远方的 时候,就会慢一些。 本质上还是社会共识不在这点上,其实连美国的社会共识也不在这个地方。(大模型)这件事情做出来,就是OpenAI这家公司特别偏执。正好美国一些个人大佬愿意给他们钱,这种宽松的环境下才造就了ChatGPT横空出世。在ChatGPT出来之前,像面壁智能这样有认知的公司,很难给投资人讲清楚,为什么这个地方值得花钱,而且还需要花大钱。 CPM大模型|来源:面壁智能 资本只是启动条件, 最终要看模型能力有多强 02 Q:CEO的决定是怎么做出的? 你出任面壁智能 李大海:(今年)2月中旬以后我们就开始谈合作,两边团队就一起共建了。训练知乎的大模型速度就快很多,4月份推出了热榜摘要的功能,5月份在做搜索和代码方面的工作,还是很忙的。 做CEO其实是大家在推进这个事情过程中,我和知远最后不谋而合的共识。当时的CEO也是刘老师的学生,刚毕业没多久,在公司治理方面,经验肯定还是欠缺的。目前大模型领域的竞争本身就很激烈,所以管理经验的确需要快速补齐。一个更好的CEO,对于团队的价值(不言而喻)。 另一方面,从知乎的角度来讲,我跟周源都认为大模型非常重要。但知乎毕竟还是一家上市公司,花非常多的资源自己训大模型不太现实。在这个过程中我们去选择跟一个创业公司深度共建,利用更少的资源拿到更有竞争力的模型,形成自主可控的竞争模式,这个事情也蛮重要的。因此对我们来说,(由我出 任CEO)也是一个挺坚定的选择。 Q:你个人的意愿呢? 李大海:我个人是意愿特别强烈的。我觉得大模型未来一定是通向AGI的可能实现路径。我们真的是站在了一个人类技术变革的元年,或者起始点。也许在路径走到一半的时候,中间有些断的地方,还需要其他的技术衔接上。 但重要的是我们能够往路上走,以前连路在哪里都不知道。所以这是一个值得工程师有生之年参与到技术发展的大主题。 Q:面壁智能是一个独立创业公司,知乎是一个成熟的上市公司,决策上面临不同声音的时候,怎么去处理? 李大海:这是个好问题,客观来说,我在这里面存在着非常多的协调、沟通,扮演了拉齐大家认知的角色,也感谢知乎,对我的信任非常足够,在模型建设工作上给了我非常大的决策空间。 这本身就是技术导向的事,大的决策方向确定以后,我也在知乎和面壁共建的过程中花很多精力协调。在具体的协作过程中,有很多非常具体的一线决策需要做,一线的决策有分歧的时候,都是我来拍板,这样效率确实比较高。这也是为什么面壁也非常认同我去做CEO,因为在这个过程中,大家建立了非常深厚的信任和一起共事的伙伴感。 互联网数十年,我们已经看到了很多赛道的火热和沉寂。你自己在知乎也做了很多年的管理者和决策者,有什么重要的 Q: 知)和 Know-how(方法论)? Learnings(认 李大海:首先,历史确实容易重复,但你仔细看,世界上没有两片同样的树叶,特质上还是会有差别,大家看到不管是外卖、o2o、打车,这些战争看起 来都是很资本密集的。 Q:不太能够通过资本就砸出来? 但是今天的竞争,是一个技术导向的事情。最终还是要看你的模型能力有多强,模型能力决定了上层应用的可能性。为什么大家都兴奋?(因为)原来很多设想的产品场景,原来的技术做不出来,技术到了一定程度上就能做出更好的东西,所以最内核的东西还是能力,我觉得不管怎么打,这个地方是真刀真枪。 李大海:资本很重要,因为算力、团队需要支持。但是资本只是一个启动的条件,怎么样能够把真的把核心技术做出来。它还是个技术新模式。我自己觉得,技术上要足够的聚焦,想的足够清楚。另外这个事本身它是一个非常系统化的工作,需要方方面面的能力。 我相信面壁智能在这个地方是有自己的优势的,我们从20年开始就在围绕大模型的各个方面,建立了成建制的团队,从Infra到预训练到模型架构再到对齐,还有数据,都有很优秀的人才在团队中工作。 创业公司,结合过去的经验,你在管理和商业化节奏把控方面有什么心得? 技术强并不意味着这家公司会成功。把技术放在一个正确的位置,包括商业化节奏也很重要。过去你是知乎的 Q:CTO,更早之前你经历过三家 :这是一个很好的问题。我在知乎做CTO,一直以来最重要的Learning就是,技术一定要服务于业务。技术最终是要让业务变得更好,让用户感受到这个产品的价值,你去做一些跟业务无关的,看起来炫酷的技术,但这都没什么用,其实在我们现在这种公司制度底下是很难 李大海 (持续下去)。我在知乎不仅承担CTO的职责,也是董事,参与了知乎近几年的战略讨论与 Q:既然你提到了战略,面壁当下的战略是什么样的? 制定。在我看来,技术和商业化不是泾渭分明的两件事,其实是相辅相成的,我们需要通过技术拓展更多的业务场景,同时也预期业务场景能够给模型数据反馈和场景的扩展,形成飞轮。 李大海:当下阶段大家最关注还是你能拿出一个多好的东西,以及能不能有比较好的商业化。 因此我们其实就聚焦在两件事情上。第一件事情是模型取得足够好的进展,这个模型就是LLM,所以就不用