即时设计创始人兼CEO李国锐和Monica.im创始人肖弘AI-Native202 3-07-2808:35□即时设计是UI设计领域的明星企业,主打云端协作。4月,即时设计内测「即时AI」,10万用户申请测试。 Monica是一款all-in-one的AI助手,最早推出浏览器插件,已有超过150万用户,现在也拓展到PC/Mac和移动平台。 即时设计创始人兼CEO李国锐和Monica.im创始人肖弘□数据沉淀□AI接管 80%的共识□Q:□两位已经是实际上在运用大模型去做产品的创新了,正好通过这个机会也可以讲一讲。 从即时设计的角度,当时是怎么决定要快速的把大模型接到自己的业务,当时经历了一个怎样的决策过程?然后你们的产品设计的思路,初始的思路是怎么样的? 李国锐:□即时设计是一款在线协作的UI设计工具,用户面向的是设计师。 在去年12月份到今年3月GPT3.5到4出现以后,我们一直在学习大语言模型的能 力以及边界。我们也在思考如何用这样的能力来帮助我们整个组织、企业的员工进行提效,又能帮助我们用户获得什么样的能力。 非常幸运的是,我们在去年4月份的时候在整个UI设计行业发起了设计开源倡议,去年4月份到今年年初,我们积累了数万套开源资源,及上亿的设计素材。 了解到大语言模型的能力以后,我们就把征集到的开源素材进行整理、归纳、收集、过滤。做完这些之后,我们发现通过大语言模型的能力,可以将以前沉淀出来的大量UI专业数据,可视化地呈现 给用户。 于是在今年4月份的时候,我们就上线了这样一款产品叫做「即时AI」,用户通过文字描述的方式可以快速产生专业的APP、网站的UI设计界面。以前实现这样的设计界面大概需要超 过30分钟,而现在,通过我们的AI工具,30秒就可以产生4个设计界面,提效非常明显。 Q:□所以就是TexttoUI的东西直接出来了。 我现在回想当年极客公园2010年成立的时候,探讨最多就是UI设计。 那时候移动互联网刚来,感觉今天UI这件事儿探讨起来改成用大模型更快地实现了。李国锐:□我们也非常感谢你们在十年前已经定义的UI设计规范。 当我们回顾所有超级App或者用户非常多的App,就会发现很多设计模块是非常一致的。没有人会挑战把登陆界面改得个性化、或把用户设置的界面改得个性化。特别大型的App其实在非常早期的时候就把UI定型了。 UI设计是图形化的语言描述,那通过把前辈们十年前贡献的数据、沉淀的标准消化完成以后,就会发现80%的界面其实是可以通过总结规律与经验产生的。剩下20%的界面,则是由每一家企 业自己去做非共识的、有创新点的设计。 即时AI现在的能力,也是产生共识性内容的效果特别强。非共识内容是我们最近在补的数据。Q:□有道理,就是你们先把已经共识的东西是通过prompt让大家更快捷地生成,留出时 间探讨非共识的怎么做更好。而且未来可能非共识也可以co-pilot、co-imagination的去探索,这个是个很好的思路。 产品形态□为什么从浏览器插件出发? Q:□回到Monica.im,肖弘做的浏览器插件接ChatGPTAPI,主打全球市场,海外市场。当时怎么想起来做这件事儿的?怎么经历了产品的决策过程?肖弘:□我自己一直有做AI助理的执念。 可能很多用户会有类似的体验,用文件传输助手记一些很简单的笔记。 在2021年左右的时候我自己想利用企业微信之类的,用一些AI技术做在微信里面的AI助手。我当时把我自己所有的数据,我还买了一个摄像头24小时带着,上班录下来。 那时候整个技术不成熟,录下来的数据丢过去,我希望有一个魔法能够把它们解释清楚,但是在2021年的时候搞不定。在2022年11月中旬的时候我注册了OpenAI开放平台, 用了一下GPT3的接口,当时我非常震惊,觉得这个时候做小助手的时机已经到了。 那个时候ChatGPT还没有发布我们就已经决定做了,ChatGPT发布的时候我们非常郁闷,因为官方自己做的,而且在后面我们观察到国内外很多独立开发者也自己做了。 当时我们有一个命题是想清楚跟原厂的差异化是什么。 非常巧,当时国外的一家创业公司Jasper,它最直接被拷问,说你跟ChatGPT的差异是什么?它有一篇文章提到想赋能每一个输入框,想做浏览器插件。 这个信息被我们捕捉到了,我们觉得它是非常好的产品形态,能够获取用户的上下文,就立项做了Monica,第一个版本就是浏览器插件,我们觉得是非常对的选择。也很有意思,Jasper自 己没有践行这个战略,它的浏览器插件没有做好。 Q:□最近因为技术被覆盖,Jasper受到的影响也很大。定义关系 要么是传感器,要么是手和脚□Q:□这也是想追问的一点,你们并不是因为ChatGPT 出现了才想做这个,是早于ChatGPT发布就开始做的,它来了以后对你有一定的覆盖和影响。 创业者今天做大模型产品,是不是都会面临这个问题?怎么避免技术一升级,我们的努力就被覆盖?肖弘:□这件事情我们也一直在思考,阶段性的思考结果跟大家分享一下。 首先大家得持续地想明白的一件事,大语言模型的边界在哪里? 我们自己的体感,大模型更像是一个大脑,应用层创业者应该想办法收集用户在特定场景里的数据,数据加上这个大脑,跟它形成协作关系。 从产品形态来说,我们用浏览器插件的形态,获取很多用户在浏览器里的数据行为。 Q:□你刚才说的这点很有意思。 我们要理解大模型是什么,所以,我们是什么,这个关系很重要。 你刚刚形容它是大脑,老周(鸿祎)形容是计算机。我们要给它更丰富的数据,才能更好地用好算力 。如果我完全不input新的东西,输个指令它就能直接干,这样意义就不大。肖弘:□可以这样理解。 Q:□要么我们是它的传感器,要么是它的手和脚,我们得和它有价值交换。肖弘:□对。我再补充下,浏览器插件为什么是好的产品形态? 一方面可以获取用户当前的context。另外,Monica下一步会做一些类似RPA的事情,你有一些指令之后帮你在浏览器把这个事情干了。 相当于把眼睛和手都加上去了,这个是你跟LLM的边界也很清晰,它持续地变得更聪明,而你持续帮它看到更多的东西和执行更多的东西的关系。 用好大模型□做视觉设计的「编程」□Q:□国锐怎么看?刚才我理解你的数据有一部分还是众筹的,是吗?大家都贡献了一些,加上历史积累。所以你们能在UI层面迅速把80%共识的东西 ,变成很自动化能够产生的东西。 你接下来呢?那20%我们还能做什么?大家要非共识去创造的东西。一个设计的自动化是反设计的 ?还是促进设计的? 李国锐:□我们会发现大语言模型,有非常强的结构拆解、扩充及总结的能力,在这些能力支撑下,大语言模型可以很容易地快速获取与理解用户的需求。 同样的,基于这样的能力,针对非共识性的内容,只要用户的阐述表达得足够清晰,它(大模型)也可以从共识性内容解构出来的专业数据中,快速寻找并进行适配。但它的难度就比刚刚说那些共识的难度数据要大。 也就是说,针对共识性内容,用户只要简单的一两句话就可以获得匹配结果,但是针对非共识性内容 ,尤其是独有的、创新性的功能,用户就需要通过非常详细的文字描述,最终也可以把这样的一个可视化的结构给生成出来。 因为我们生成的不仅仅是一张图,而是带图层结构、带模块的设计稿,甚至包括图标及填充图像,并且最终生成交付的设计稿是可以被用户二次编辑的。 它不像StableDiffusion或者Midjourney生成的是一个图,我们希望生成的是一个可视化的结构输出。 Q:□其实是一种视觉设计的编程,你帮它编出来,用户还可以再调整。李国锐:□对,完全分层级。 再回到20%的非共识性内容,我们的抽离不是整块、大块地抽离,而是对每个界面的解构可以细 化到每个按钮、每个标题、每一段描述,可以拆解每一个模块背后的意思是什么?它的结构希望给用户呈现的是什么? 当用户把意图讲解给它(即时AI)的时候,它会把我们存储的意图跟之前可以匹配的数据进行匹配 、推理再做转化,所以用户对它描述的意图有多精细,它的生成结果就会有多精细。Q:□你们要实现这样的能力,是怎么部署大模型到你的业务和产品里? 李国锐:□我们有在运用大模型的接口能力,但实际上我们的工作会更多。 我们有很多数据要做预处理,需要把很多的数据进行解构、抽离。包括需要搭建像LangChain这样的框架,来解决Prompt内容过大等问题。我们需要把整个设计稿或者之前积累的大 量数据喂进去,这个量是非常大的。包括已经解构完的组件库或者搭建页面的模块,需要被前置存储到我们自己的服务器或者类似向量数据库的结构里面进行处理。 Q:□所以刚才老周说未来都要变成私有的,这个也未必在每个领域都行。可能在这个领域(设计)SaaS就是比较好的模式,那你往前推演,在大模型技术引入之后,SaaS依旧是好的方式 吗? 李国锐:□接口开放或许能解决这样的问题,通过将一部分接口开放出来,将这些数据对齐到其他企业 。但是要把大量的数据进行糅合,再部署到企业,短期来说,在我们这种专业赛道相对会比较有挑战。因为它的体量及更新迭代都比较快,这个过程中还要不断消化刚刚提到的非共识的东西。 如何填充这些数据,并且保持高速的迭代,都是挑战。Q:□如果把它分布式布到每个地方,就没有成长性。 插件覆盖不同网站□从用户视角抹平差距□Q:□UI还好,还不像销售、客户的系统。回到 肖弘这边,你们选择了浏览器插件作为你的阵地构建。能不能解释解释浏览器插件这件事儿,因为大部分人会觉得为什么不是APP,APP是不是更闭环的东西?选择浏览器插件的好处和大模型时 代的关联能不能再解读解读? 肖弘:□国内因为种种原因,大家对浏览器插件这个产品形态见得比较少一些。 但在海外它是一个比较主流的产品形态,比如Grammarly是每年几亿美金收入的公司,它浏览器插件的用户基数也挺大,也可能是亿级别的用户。 我们当时核心的考量,AI作为一种能力,如何能够适配到各种各样的场景是非常好的事情。浏览器插件恰好是我们发现的一个能够很好把这件事情做到的产品形态。 大家看了很多大厂发很多AI牛逼的能力。但网站特别多,很多网站并不会立刻集成这些能力,比如GoogleDocs集成了AIGC的能力,但自己搭了一个博客系统可能就没有。 但是用户在输入框里面,确实想要用很好的AI能力,这个时候浏览器插件,就能从用户视角抹平 各个网站体验上的差距。所以当时我们选了浏览器插件的形态,而且本身我们做出海,所以全球来看这个形态也可以被更广泛的接受。 Q:□你刚才说你选择了一个本身比较平坦的,复杂度相对比自己重新做一个APP更轻一些的平台来启动这件事儿。用户在你们的产品里,你们现在应该有150万左右的用户积累了。 肖弘:对。 Q:是现在发展速度比较快比较好,最近还在增长吗?肖弘:还在增长。 Q:□ChatGPT的活跃度都有点下滑了。Monica还在增长活跃,主要用来干嘛呢?用户解决的问题到底是什么? 肖弘:□我们做了很多很具象的场景里面的工作,比如帮你总结文章或者打开一个YouTube 视频的时候帮你总结,并且把每段分下来,零零碎碎的场景都有,包括回邮件。但更多还是问答的场景,希望它是变种的搜索,会问各种各样的问题。 我们接下来做的工作,我们做了个很多不同的机器人承接各种垂直领域的问答,也许ChatGPT 的抽象是试图用一个机器人回答所有的问题,但这个有难度和挑战。我们希望用多个机器人,每个机器人解决不同的问题,用这个抽象解决问题。有些垂直领域机器人甚至是大语言模型的基础加上传统的方案,比如为了解决幻觉问题,你可以用更传统的知识检索的方式,更多人还是把它当作搜索的变种,我们给的解决方案是用不同的机器人解决不同的问题。 Q:□里面看到最主流的是在搜索,大家需要有更好的搜索,而你交付更好的搜索未必是用ChatGPT的方式做,可能要有一些更分类的Chatbot,甚至不一定用大模