行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

即时设计创始人兼CEO李国锐和Monicaim创始人肖弘AINative20230728

2023-07-28 未知机构李鑫

从即时设计的角度，当时是怎么决定要快速的把大模型接到自己的业务，当时经历了一个怎样的决策过程？然后你们的产品设计的思路，初始的思路是怎么样的？李国锐：即时设计是一款在线协作的 UI 设计工具，用户面向的是设计师。在去年 12 月份到今年3月 GPT3.5 到 4 出现以后，我们一直在学习大语言模型的能力以及边界。我们也在思考如何用这样的能力来帮助我们整个组织、企业的员工进行提效，又能帮助我们用户获得什么样的能力。非常幸运的是，我们在去年 4 月份的时候在整个UI设计行业发起了设计开源倡议，去年 4 月份到今年年初，我们积累了数万套开源资源，及上亿的设计素材。了解到大语言模型的能力以后，我们就把征集到的开源素材进行整理、归纳、收集、过滤。做完这些之后，我们发现通过大语言模型的能力，可以将以前沉淀出来的大量 UI 专业数据，可视化地呈现给用户。于是在今年 4 月份的时候，我们就上线了这样一款产品叫做「即时 AI」，用户通过文字描述的方式可以快速产生专业的 APP、网站的 UI 设计界面。以前实现这样的设计界面大概需要超过 30 分钟，而现在，通过我们的 AI 工具，30 秒就可以产生 4 个设计界面，提效非常明显。 Q：所以就是 Text to UI 的东西直接出来了。我现在回想当年极客公园 2010 年成立的时候，探讨最多就是 UI 设计。那时候移动互联网刚来，感觉今天 UI 这件事儿探讨起来改成用大模型更快地实现了。李国锐：我们也非常感谢你们在十年前已经定义的 UI 设计规范。当我们回顾所有超级 App 或者用户非常多的 App，就会发现很多设计模块是非常一致的。没有人会挑战把登陆界面改得个性化、或把用户设置的界面改得个性化。特别大型的 App 其实在非常早期的时候就把 UI 定型了。 UI 设计是图形化的语言描述，那通过把前辈们十年前贡献的数据、沉淀的标准消化完成以后，就会发现 80%的界面其实是可以通过总结规律与经验产生的。剩下 20%的界面，则是由每一家企业自己去做非共识的、有创新点的设计。即时 AI 现在的能力，也是产生共识性内容的效果特别强。非共识内容是我们最近在补的数据。Q：有道理，就是你们先把已经共识的东西是通过 prompt 让大家更快捷地生成，留出时间探讨非共识的怎么做更好。而且未来可能非共识也可以 co-pilot、co-imagination 的去探索，这个是个很好的思路。产品形态为什么从浏览器插件出发？Q：回到 Monica.im，肖弘做的浏览器插件接 ChatGPT API，主打全球市场，海外市场。当时怎么想起来做这件事儿的？怎么经历了产品的决策过程？肖弘：我自己一直有做 AI 助理的执念。可能很多用户会有类似的体验，用文件传输助手记一些很简单的笔记。在2021年左右的时候我自己想利用企业微信之类的，用一些AI技术做在微信里面的AI助手。我当时把我自己所有的数据，我还买了一个摄像头24小时带着，上班录下来。那时候整个技术不成熟，录下来的数据丢过去，我希望有一个魔法能够把它们解释清楚，但是在2021 年的时候搞不定。在 2022 年 11 月中旬的时候我注册了 OpenAI 开放平台，用了一下GPT3的接口，当时我非常震惊，觉得这个时候做小助手的时机已经到了。那个时候ChatGPT还没有发布我们就已经决定做了，ChatGPT发布的时候我们非常郁闷，因为官方自己做的，而且在后面我们观察到国内外很多独立开发者也自己做了。当时我们有一个命题是想清楚跟原厂的差异化是什么。非常巧，当时国外的一家创业公司 Jasper，它最直接被拷问，说你跟 ChatGPT 的差异是什么？它有一篇文章提到想赋能每一个输入框，想做浏览器插件。这个信息被我们捕捉到了，我们觉得它是非常好的产品形态，能够获取用户的上下文，就立项做了 Monica，第一个版本就是浏览器插件，我们觉得是非常对的选择。也很有意思，Jasper 自己没有践行这个战略，它的浏览器插件没有做好。Q：最近因为技术被覆盖，Jasper 受到的影响也很大。定义关系要么是传感器，要么是手和脚Q：这也是想追问的一点，你们并不是因为 ChatGPT出现了才想做这个，是早于 ChatGPT 发布就开始做的，它来了以后对你有一定的覆盖和影响。创业者今天做大模型产品，是不是都会面临这个问题？怎么避免技术一升级，我们的努力就被覆盖？首先大家得持续地想明白的一件事，大语言模型的边界在哪里？我们自己的体感，大模型更像是一个大脑，应用层创业者应该想办法收集用户在特定场景里的数据，数据加上这个大脑，跟它形成协作关系。从产品形态来说，我们用浏览器插件的形态，获取很多用户在浏览器里的数据行为。 Q：你刚才说的这点很有意思。我们要理解大模型是什么，所以，我们是什么，这个关系很重要。你刚刚形容它是大脑，老周（鸿祎）形容是计算机。我们要给它更丰富的数据，才能更好地用好算力。如果我完全不 input 新的东西，输个指令它就能直接干，这样意义就不大。肖弘：可以这样理解。Q：要么我们是它的传感器，要么是它的手和脚，我们得和它有价值交换。肖弘：对。我再补充下，浏览器插件为什么是好的产品形态？一方面可以获取用户当前的 context。另外，Monica 下一步会做一些类似 RPA的事情，你有一些指令之后帮你在浏览器把这个事情干了。相当于把眼睛和手都加上去了，这个是你跟 LLM 的边界也很清晰，它持续地变得更聪明，而你持续帮它看到更多的东西和执行更多的东西的关系。用好大模型做视觉设计的「编程」Q：国锐怎么看？刚才我理解你的数据有一部分还是众筹的，是吗？大家都贡献了一些，加上历史积累。所以你们能在 UI 层面迅速把 80%共识的东西，变成很自动化能够产生的东西。你接下来呢？那 20%我们还能做什么？大家要非共识去创造的东西。一个设计的自动化是反设计的？还是促进设计的？李国锐：我们会发现大语言模型，有非常强的结构拆解、扩充及总结的能力，在这些能力支撑下，大语言模型可以很容易地快速获取与理解用户的需求。同样的，基于这样的能力，针对非共识性的内容，只要用户的阐述表达得足够清晰，它（大模型）也可以从共识性内容解构出来的专业数据中，快速寻找并进行适配。但它的难度就比刚刚说那些共识的难度数据要大。也就是说，针对共识性内容，用户只要简单的一两句话就可以获得匹配结果，但是针对非共识性内容，尤其是独有的、创新性的功能，用户就需要通过非常详细的文字描述，最终也可以把这样的一个可视化的结构给生成出来。因为我们生成的不仅仅是一张图，而是带图层结构、带模块的设计稿，甚至包括图标及填充图像，并且最终生成交付的设计稿是可以被用户二次编辑的。它不像 Stable Diffusion 或者 Midjourney 生成的是一个图，我们希望生成的是一个可视化的结构输出。Q：其实是一种视觉设计的编程，你帮它编出来，用户还可以再调整。李国锐：对，完全分层级。再回到 20% 的非共识性内容，我们的抽离不是整块、大块地抽离，而是对每个界面的解构可以细化到每个按钮、每个标题、每一段描述，可以拆解每一个模块背后的意思是什么？它的结构希望给用户呈现的是什么？当用户把意图讲解给它（即时 AI）的时候，它会把我们存储的意图跟之前可以匹配的数据进行匹配、推理再做转化，所以用户对它描述的意图有多精细，它的生成结果就会有多精细。 Q：你们要实现这样的能力，是怎么部署大模型到你的业务和产品里？李国锐：我们有在运用大模型的接口能力，但实际上我们的工作会更多。我们有很多数据要做预处理，需要把很多的数据进行解构、抽离。包括需要搭建像 LangChain 这样的框架，来解决Prompt 内容过大等问题。我们需要把整个设计稿或者之前积累的大量数据喂进去，这个量是非常大的。包括已经解构完的组件库或者搭建页面的模块，需要被前置存储到我们自己的服务器或者类似向量数据库的结构里面进行处理。 Q：所以刚才老周说未来都要变成私有的，这个也未必在每个领域都行。可能在这个领域（设计）SaaS 就是比较好的模式，那你往前推演，在大模型技术引入之后，SaaS 依旧是好的方式吗？李国锐：接口开放或许能解决这样的问题，通过将一部分接口开放出来，将这些数据对齐到其他企业。但是要把大量的数据进行糅合，再部署到企业，短期来说，在我们这种专业赛道相对会比较有挑战。因为它的体量及更新迭代都比较快，这个过程中还要不断消化刚刚提到的非共识的东西。如何填充这些数据，并且保持高速的迭代，都是挑战。 Q：如果把它分布式布到每个地方，就没有成长性。插件覆盖不同网站从用户视角抹平差距Q：UI 还好，还不像销售、客户的系统。回到肖弘这边，你们选择了浏览器插件作为你的阵地构建。能不能解释解释浏览器插件这件事儿，因为大部分人会觉得为什么不是 APP，APP 是不是更闭环的东西？选择浏览器插件的好处和大模型时代的关联能不能再解读解读？肖弘：国内因为种种原因，大家对浏览器插件这个产品形态见得比较少一些。但在海外它是一个比较主流的产品形态，比如 Grammarly 是每年几亿美金收入的公司，它浏览器插件的用户基数也挺大，也可能是亿级别的用户。我们当时核心的考量，AI 作为一种能力，如何能够适配到各种各样的场景是非常好的事情。浏览器插件恰好是我们发现的一个能够很好把这件事情做到的产品形态。大家看了很多大厂发很多 AI 牛逼的能力。但网站特别多，很多网站并不会立刻集成这些能力，比如 Google Docs 集成了 AIGC 的能力，但自己搭了一个博客系统可能就没有。但是用户在输入框里面，确实想要用很好的 AI 能力，这个时候浏览器插件，就能从用户视角抹平各个网站体验上的差距。所以当时我们选了浏览器插件的形态，而且本身我们做出海，所以全球来看这个形态也可以被更广泛的接受。 Q：你刚才说你选择了一个本身比较平坦的，复杂度相对比自己重新做一个 APP 更轻一些的平台来启动这件事儿。用户在你们的产品里，你们现在应该有150万左右的用户积累了。肖弘：对。 Q：是现在发展速度比较快比较好，最近还在增长吗？肖弘：还在增长。 Q：ChatGPT的活跃度都有点下滑了。Monica 还在增长活跃，主要用来干嘛呢？用户解决的问题到底是什么？肖弘：我们做了很多很具象的场景里面的工作，比如帮你总结文章或者打开一个 YouTube视频的时候帮你总结，并且把每段分下来，零零碎碎的场景都有，包括回邮件。但更多还是问答的场景，希望它是变种的搜索，会问各种各样的问题。我们接下来做的工作，我们做了个很多不同的机器人承接各种垂直领域的问答，也许 ChatGPT的抽象是试图用一个机器人回答所有的问题，但这个有难度和挑战。我们希望用多个机器人，每个机器人解决不同的问题，用这个抽象解决问题。有些垂直领域机器人甚至是大语言模型的基础加上传统的方案，比如为了解决幻觉问题，你可以用更传统的知识检索的方式，更多人还是把它当作搜索的变种，我们给的解决方案是用不同的机器人解决不同的问题。 Q：里面看到最主流的是在搜索，大家需要有更好的搜索，而你交付更好的搜索未必是用 ChatGPT 的方式做，可能要有一些更分类的 Chatbot，甚至不一定用大模型。肖弘：不是说用一个搞定所有的事。特别是在底层技术快速发展变化的时候，可能特定的问题被解决的更好。 Q：不要极端，务实的解决用户的问题。用户人群大模型带来专业领域大众化Q：说到解决用户问题，转回即时设计，从你们把这个能力加进去之后，我现在都能自己画 UI 了，以前我们要有 UI 设计师，它改变了用户的属性，现在用这些东西的人会变化吗？用它的目的会变化吗？它的目的是为了高效、快速？还是为了简单？为了创新？从你们识别到的用户真实的需求来看，它是怎么分布的？李国锐：我们上线这个产品以后也有 6 位数以上的

点击免费查看完整报告

即时设计创始人兼CEO李国锐和Monicaim创始人肖弘AINative20230728

你可能感兴趣

即时设计创始人兼 CEO 李国锐和 Monica.im 创始人肖弘AI-Native

中手游执行董事、董事长兼CEO肖健

VR产业系列调研之VR内容调研-深度访谈焰火工坊创始人兼CEO娄池

循环智能联合创始人兼CEO陈麒聪在民生AI峰会上的讲话20230505

信达：策略会嘉宾演讲-弘章资本创始人翁总：消费企业投资和运营的思考框架20220513

AI大模型落地的前景和痛点，兼谈工程师架构师所面临的机会和挑战_李维

国金：以太坊创始人Vitalik Buterik Buterin解读（私有链和联盟链的机会与挑战）会议纪要

李男:通算融合共生：关键技术和系统设计思考

汽车行业即时点评：国常会，支持新能源汽车消费和停车场建设

李国峰：螺纹钢和铁矿石走势分析