您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:智源张宏江 - 发现报告
当前位置:首页/会议纪要/报告详情/

智源张宏江

2023-08-02未知机构赵***
智源张宏江

智源张宏江2023-07-31 正的理想主义,才可能「加大创新成功的可能性」。 的位置上退休的张宏江主导了这一切。他坚持认为,真正的科研创新需要跳脱出传统的权力体系、具有真 2018年,智源研究院在北京成立。独立于政府、商业、和高校之外,智源从出生便将自身定义为一所民间非营利的新型科研机构——前微软亚洲研究院创始人之一、刚从金山CEO 2020年,智源启动「悟道大模型」系列,是中国最早实践大模型路线、并坚定下注的机构。那是GPT-3刚刚面世的时代,一万张卡的训练劝退了中国诸多学者。智源却坚定地选择支持一些学者,从80张卡追起,调动大量资金以支持训练大模型。如今,大模型创业潮里的灵魂人物:唐杰、刘知远、黄民烈、杨植麟等,都曾是「悟道」项目中出现过的身影。 从智源成立的第一天起,张宏江就意识到,前沿探索一旦做成,研究院的人才必定会被挖角——不仅因为商业机构能够开出更高的薪水,更因为人才的稀缺性。尽管在理智上可以接受,但当这一切真的发生——当一位张宏江极为重视的年轻技术骨干被挖走时——他还是为此「消化了很 者在最有热忱和动力 的年龄却无法真正展开高效的学术研究。 久」。自2019年起,智源开始花大量时间组建「智源学者」——目的是汇集中国最杰出的人工智能学者群体,并筛选出一波有学术潜力的年轻人,并将资源投入给他们。在张宏江看来,传统的学术体系对年轻人不够友好:盘踞于金字塔顶层的学者们虹吸式地聚集了所有资源,而年轻学 典型的一个例子是,智源青年学者刘知远在三年前还未评上清华大学副教授,但当他向智源申请立项训练大模型,当即获批10台V100,即80 张卡以支持他训练CPM-1大模型,这意味着上千万人民币的资源投入——「如果没有智源,以我当时的学术职称很难调度这么大的资源。」 「我们受到的 所有挑战是自信心的挑战」 01 Q:成⽴智源之前,你已经退休了,⽽且刚从⾦⼭那样劳⼼劳⼒的地⽅离开,为什么选择再次出⼭?张宏江:从金山退休到做智源,中间隔了差不多一年半,我当时是非常享受状态的——一边做企业的顾问,一边做源码资本的投资合伙人,同时也能花点时间在美国跟两个儿子在一块儿,然后又去周游世界。 直到2018年夏天7月份,一场有关人工智能的座谈会在北京市举办,会议的目的是探讨如何提升当下的科研水平。当时我受邀参与,会上,我提及了美国有个OpenAI,是一个非营利民间机构,这种形式很新颖。在我看来,国内大学里面研究者虽多,但坦率说,都是一个个小单元,很难集中力量干大事。而企业更多是聚焦自己目前的业务,很难在基础前沿方向上做足够坚定的探索。所以当时我提到,中国可能也需要一家新型的科研机构,独立于高校、企业和政府,追求更系统的大目标。Q:对于打造一个理想的研究机构,你当时有什么想法? 张宏江:我当时想的第一件事,就是能不能做一个社区,把搞人工智能的这些学者都聚到一起,从中找出真正有想法、有干劲的领军人物。第二步是在社区的基础上,能像美国的DARPA一样,把他们 组织起来做一些事情。第三步才是找到一些目标导向的项目,开始做实。智源也是依照这三步来走的。当然当时我并没有想自己来做。 Q:为什么最后决定自己来做了? 智源社区 张宏江:我找过不少人,问他们愿不愿意做这事;但我后来发现,这其中的难度远超我想象。接连被拒绝后,就这么半推半就,我自己做了理事长。 Q:难度在哪里? 张宏江:要做前沿的科研会涉及大量的资金,前沿的科研探索也不是一定能成功,敢不敢赌这东西,能不能坚持、坚定地判断,对研究的管理人员是真正的考验。 2020年6月,GPT-3发布后,智源当时决定要把所有资源和人力聚焦在做大模型——也就是后来的「悟道」大模型系列。大模型当时在学术圈还是比较另类的一条路线,也不是所有人都接受。悟道发布后,有人一看智源花这么多钱,就有一些噪音说这个方向不对,甚至说智源的决策不清晰、产出不清晰、将来的(发展)不清晰。整个智源包括我,都顶着很大压力。 Q:那时候的确有传言说智源是骗钱的。 1.0已经花了不少的资金,2.0 ——我们当时的预算根本不够撑这件事。要往下走,就需要更多的钱。 程度上打乱了我们的节奏。 张宏江:智源受到的所有挑战都是对于我们自信心的一种挑战。悟道 要想真正让所有人能用,还需要工程的力量 的发布,的确带动了整个业界的行动节奏,也一定 但如果回看我们2022年6月份做的计划,70%的预算就用来做两件事:大模型和支持大模型的架构。按照我们的路径图:希望2023年的9月份大语言模型能够上线,在这基础上,能做一个对话机器人——这与OpenAI的路径是一致的,GPT-3.5就是大模型,ChatGPT就是对话机器人。所以今天回看,我们的路径图可能是对的,只是说我们比它晚一年。不过ChatGPT Q:我挺好奇,ChatGPT爆火后,你真实的心境是怎样? 张宏江:ChatGPT发布时我在美国。我意识到这个事在中国可能会非常热闹。回来之前我在想,或许我们可以像OpenAI一样,组个团队把这件事做成公司。 但我回国后两三个礼拜,中国已经遍地是(大模型创业)公司了。当别人做成功的概率可能比你还高时,你为什么还要凑这个热闹。 Q:这是一个冷静的过程? 张宏江:对。我很快静下来了,觉得ok至少我自己不用搭团队去做了,他们要搭团队他们就去做,我能帮就帮。 Q:但在帮(别人创业)的过程中,智源被挖角了。 张宏江:一个年轻人的离开让我忧郁了很长时间。他是我们很强的一位技术骨干。而他被挖走恰恰就是因为我曾经当着那个创业者的面狠狠夸奖了这个年轻人。 Q:你有挽留他吗? 张宏江:当然挽留他了,一方面我挽留他,另一方面我也鼓励他,因为他有他的梦想,又年轻,可以试错。 Q:听说你消化了挺长一段时间。 张宏江:对。我希望那个年轻人能在这儿接着再做两年,他可能就能做出世界领先的多模态大模型了。我问他,你想做一个公司的工程VP或者是CTO,还是想做一个科学家? Q:他怎么回你? 张宏江:他选择要做一个CTO。(邀请他的)那是一个很被人看得上的创业者,所以从这个意义上我会很理解他。 「当他们三个人 判断一致时,我就信了」 02 你从什么时候开始关注到 Q: 图片来源:视觉中国 OpenAI的? 张宏江:2016年底我决定退休后,去硅谷游学的时候,曾经在伯克利和OpenAI做强化学习的团队聊过。他们创始的使命就很清晰,AI作为如此重要的一个改变人类的技术,不能让一两个巨头所垄断(主要指谷歌)。 坦率说,当时我不觉得他们能成功。但是我喜欢那种非营利组织的组织方式——不附属于一个企业,又不附属于一间高校,也不附属于一个政府。游离于所有的功利圈之外,又专注于做一个方向。Q:当时想过「这事能在中国干」吗? 张宏江:我当时就想过,但我觉得可能得十年以后,等到某个富豪能够想通了,把钱拿出来(做这件事)。结果在2018年,机缘巧合下,智源就成了。 Q:OpenAI早期经历了从研究方向的发散到收拢,最终选择大模型方向allin资金和人力;智源也经历了一个类似的过程? 张宏江:我们在2019年底就开始讨论,希望从我们当时所有研究方向中(机器学习、信息系统、数理基础、系统架构、芯片),能选出一个聚焦的方向。这事到2020年GPT-3发布时变清晰了:铁军、唐杰、刘知远、文继荣这些在我们平台上的学者,大家意识到这是一个(里程 碑),所以我们很快就搭出一个团队,机器学习和信息系统两波人一起来做这件事,开始做「悟道」大模型系列。现在大家会认为GPT-3是一个里程碑,但事实上,当时所有科研部门、四小龙等公司,可能感知没有那么强烈。 Q:那你们为什么坚信(大模型)这个方向? 张宏江:我是在悟道2.0发布时信了这件事——因为GPT3.0它再强,它是别人做的,我们自己复现出来,路子就走通了。 的专家,但你要能找到这个领域最强的专家,并百分之百地信任他们。当他们几个人,智源的两位院长,黄铁军和唐杰,加上文继荣和刘知远等 在此之前我并不是彻底不信。因为我自己并没有把这个算法本身从头到尾走一遍。作为一个科研的管理者,你自己并不一定是这个领域里面最强 智源学者,都跟我说这件事(值得坚持)的时候,我就信了。 是工程问题。 我之前有机会跟文继荣老师聊过,他说在 出来时,国内真正懂 的这些人已经开始意识到大模型这条路是能走得通的,接下来只 Q:GPT-3AI 张宏江:我认为大家那时候还是懵懵的,因为3.0并没有很强的涌现能力,大家只是认为这个方向值得探索。至于大家能不能看到GPT-4,或者能不能看到跟AGI的这种(联系),我想那是很遥远的。 图片来源:视觉中国 真地做下去。 他有提到一点,那个时候包括智源在内,国内有几个团队已经开始立项要做大语言模型了,但这些团队没有足够的信仰把这事坚持着非常认 Q: 张宏江:这个我同意,但我只同意一半。 的经费来购买算力。 把时间拨回到ChatGPT3.0发布时,我们确认这件事值得做,但也意识到需要大量的资源,而获得这样量级的资源并不容易,智源当时拿出一半 算力和招人都需要钱,只能在两者之间取舍。招人也有困难,你跟别人说「我们做大模型」,大家未必有共识,很多人会问「三年以后智源还在不在?」。我们回头看一个正确的决定,会觉得理所当然,是一个无比清晰的决策;但过程中的每一步决定与坚持,其实都伴随着大量混沌的综合因素——尤其科研领域重大投入的决策是无法笃定预测结果的,充满惊险与冷暖自知。 Q:你自己内心觉得三年以后,这个机构还会在吗? 张宏江:我想我会以我的努力去争取这件事。坚持做正确的事情,就会有生命力,有生命力就有希望,有希望就有一切。 Q:你觉得是什么造成了今年年初中国在这波⼤模型潮中的失声?是信仰,还是资源不足? 对智源来说,的确是因为当时的资源不足。其他大公司没有做出来,也许是勇气和认知的问题,又或许是其他原因。 「成为黄埔军校对我来说是成功的标志」 Q:大模型创业圈现在总谈智源系,智源就像一个原点一样,向很多创业公司、大厂发散出影响力和人才,输出了技术谱系。但这些人才都是你辛苦聚集起来的,理性上和感性上分别是怎样接受这件事?张宏江:二月份,智源一位副院长打电话给我,说几位连续创业者要出山做这件事,肯定要挖我们的人。我说我们在做智源的第一天就应该想到了,(智源)做成以后我们的人一定会被挖角。我第二句话说的是,微软研究院过去20多年都是被挖的,但并没有把它挖垮。总有一些想做研究的人,他们不会受到商业的干扰,我们总还能吸引一些有理想主义情怀的人。 另外,至少我们可以说,北京的这个圈子里真正做过大模型的都是在悟道(这个项目)里做的。这是我们可以得意的地方。 Q:听起来智源像一个黄埔军校,你愿意它变成黄埔军校吗? 张宏江:成为黄埔军校对我来说是一个成功的标志。如果智源的一些人到了某些公司成为了核心骨干,把公司做成了,我会非常开心。我们的代码、我们的系统被别人用来做他们的产品,做得很好我也会非常开心,这本来就应该是一家非营利研究机构的价值所在。 另外我也希望我们的一些成果能成为基石:比如我们不断有开源的模型出来,大模型开源技术体系出来,这些模型能成为公司或其它研究机构下一步研究和开发的基础。 状态了。 您提到微软亚洲研究院,之前我跟小冰的李笛也聊过,他们那批人最终选择出来是想干一番事业,原来在研究院仿佛已经能看到退休以后的 Q: 这其实是两件事。在我看来,如果你的志向是做研究,那么当然可以在研究路径上做出自己的突破,研究本身就是一项可以投入一生的事业;你不断地有新的算法研究出来、有新的系统研发出来,你本来享受的就是这个过程,可能只是没有做公司赚的钱多而已。 Q:找到那些真正有志成为一流科学家的人更难,还是说服他来到智源更难? 张宏江:第二个更难。发现一流的科研人员并不难,你看看最好的学者会议上发表好文章的是谁,谁在参加会议,一目了然。但能不能说服他们来,这是一件很难的事。拒绝智源的