11 /*使用电脑阅读,获得最佳体验 序 毫无疑问,开源开发者圈子来看,2023年是大模型LLM年、生成式AIGenAI年。 一、 这自然要从OpenAI说起,前一年年底,ChatGPT的横空出世,标志着对话式LLM开始进入公众视野,为人们提供了全新的人机交互方式。而2023年3月,同系 GPT-4.0的发布则将LLM的规模和能力提升到一个新的台阶,为LLM的广泛应用奠定了基础。再之后的11月份,OpenAI再发力,GPTs的到来,“用户自定义ChatGPT”的能力,更是让世人领略了OpenAI作为LLM一哥的宏大叙事能力与强劲技术实力。 二、 NewBing(BingAI)代表了微软在LLM领域的野心和决心,它首次把当时世人能想到最有价值又可行的LLM应用场景——“智能对话+联网搜索”——无缝整合了起来, 大有干掉搜索行业和问答社区的趋势,而后事实证明,全 球最强IT问答社区StackOverFlow深受其害。Google紧随其后推出Bard,作为其首次亮相的对话LLM产品,无疑具有其里程碑意义,尽管它的首秀并不尽如人意,车翻了又翻。 三、 Claude2、PaLM2、Llama等模型与产品也展现了LLM在语言理解和多模态处理能力方面的探索,甚至Claude2还一度被誉为实力可以硬刚ChatGPT。而Meta开源的 Llama2更成为了LLM领域开源势力的典型代表,它的 出现,犹如一颗投入平静湖面的石子,激荡起层层水波,“Llama2一开源,全球范围内进入了百模混战阶段”,这个说法一点也不为过。 11 年底的“虚假宣传”Gemini与“磁力链开源”Mistral8x7B两大神作,也凭借不输GPT-4的实力,将LLM狂潮卷到天际。 四、 StableDiffusion和Midjourney这两大图像生成系统的出现,极大地拓展和加速了LLM在计算机视觉领域的应用,它们突破了传统图像生成方式的局限,仅需要用户提供文字描述,就可以生成高质量的数字艺术作品。它们的图像生成质量、样式多样性和用户便捷性都是极大的突破。这为广大的个人用户和创意行业提供了强有力的工具,彻底改变了数字艺术内容的创作方式。同时,它们也引发了人工智能 在创作领域的伦理和法律讨论。LLM杀进多媒体领域。往 后DALL-E3模型升级、Adobe产品整合LLM能力、语音模型whisper-3更新、AI虚拟主播创造等,都是在这条路上的进一步发展。 五、 AI编程方面,Copilot可以根据开发者的代码提示自动补全代码,大大提高了开发效率。这也引发了代码原创性的讨 论,但它已经实实在在将LLM拉进了编程应用领域。 六、 LangChain的出现,实现了LLM之间的链式交互,使多个LLM模型串联工作,发挥各自的优势,并且可以将LLM模型与外部数据源进行连接,产生更强大的语言理解和生成效果。这开启了LLM集成应用的新方向,并诞生了 一个新的细分领域“LLMOps”。 七、 “提示词工程”,这是LLM直接催生出来的新“学科”,它的核心在于研究人类如何与LLM更好地进行“沟通”, 找到让LLM能够准确理解人类意图的方法。提示词工程探索如何以LLM可以解析的方式来表达需要它完成的任务,寻找LLM的“最佳输入形式”。通过注入提示词,提示词工程建立了一套“人机交互语法”,来更精准地向LLM传达想要它生成何种输出的指令。这为人们与LLM之间建立高效、准确的“沟通桥梁”提供了可能性。什么“链式思考 (CoT)”、“自动推理并使用工具(ART)”、“思维树(ToT)”……甚至运用心理学对LLM进行“情绪提示(EmotionPrompt)”,提示词工程俨然在将LLM一点一点解剖,试图让人类成为可以将其掌控的“咒术师”。八、 AutoGPT的出现,带着LLMAgent的概念进入LLM 发展的新阶段。LLMAgent是一种基于LLM的智能代理,它能够自主学习和执行任务,具有一定的“认知能力和决策能力”。LLMAgent的出现,标志着LLM从传统的模型训练和应用模式,转向以Agent为中心的智能化模式。LLMAgent打破了传统LLM的被动性,使LLM能够主动学习和执行任务,从而提高了LLM的应用范围和价值;它为LLM的智能化发展提供了新的方向,使LLM能够更加接近于人类智能。 九、 AI原生,目前还没有明确的定义,大致是说,不同于当前各种应用在原本的基础上增加AI能力,使其智能化,但 它的智能只充当了“辅助”角色;在AI原生的语境下,LLM从一开始就是应用的中枢,应用本身的架构、功能、交互层是围绕LLM中枢来构建的。也许ChatGPT是最经典的“AI原生”应用。此概念目前还处在萌芽期,明确的概念、应用场景、架构、技术栈细节等尚未完成自洽。换一种视角来看,这个概念的提出其实都没技术什么事,有人称之为“造商业概念”,这里按下不表。 十、 镜头给到国内。相比国际上当前逢AI必GenAI,国内更多地还是在LLM这一层面,RobinLi的“卷大模型没意义,卷应用机会更大”,其实很深刻地指出了内中区别。本报告以开发者视角为主,从LLM切入,但实际上或多或少与GenAI脱不开关系。 11 2023年国内LLM发展活跃,从最初的百度文心一言“硬刚”ChatGPT,到后来各式各样的大模型与产品出现,覆盖了不同的领域和场景,构建了多元化的大模型生态。 大模型方面,百花齐放:百度的文心一言、抖音的云雀大模型、智谱AI的GLM大模型、中科院的紫东太初大模型、百川智能的百川大模型、商汤的日日新大模型、MiniMax的ABAB大模型、上海人工智能实验室的书生通用大模型、腾讯的混元大模型、蚂蚁的百灵大模型等。 另一方面,除了大模型本身,中国在LLM相关技术领域也快速迭代发展,诸如Dify.AI的LLMOps、Milvus的向量数据库、CodeGeeX与Comate的AI编程、对LLMPrompt的研究、OneFlow的深度学习框架。 值得一提的还有华为的盘古大模型,其中盘古气象大模型是首个精度超过传统数值预报方法的AI模型,速度相比传统数值预报提速10000倍以上,能够提供全球气象秒级预报。盘古大模型的研究成果在国际顶级学术期刊《自然》正刊发表,获得国际学术界的认可。 年底,零一万物推出的Yi模型,200K上下文窗口,可处理约40万字的文本,成为当时全球大模型中最长的上下文窗口。其中Yi-34B在HuggingFace英文测试榜单中位列第一,在C-Eval中文能力排行榜中超越所有开源模型。十一、 这一小节,通过一些数据来简要概述2023年的LLM、GenAI。根据金融数据和软件公司PitchBook的数据,从截至3月29日追踪的9笔交易来看,生成式AI公司 的投前估值中位数已经飙升至9000万美元,高于2022 年的4250万美元。PitchBook的分析师预测,以32%的复合年增长率计算,到2026年,生成式AI市场规模将达到981亿美元。 由英国知名风投公司AirStreetCapital的合伙人NathanBenaich等作者联合撰写的“StateofAIReport2023”报告,从研究进展(Research)、行业局势(Industry)、政策影响(Politics)、安全问题(Safety)、未来预测(Predictions)五个维度出发,对人工智能发展现状和未来预期进行了深度分析。从中我们看到: 英伟达凭借各国、初创公司、大型科技公司和研究人员对其GPU的巨大需求,跻身市值万亿美元俱乐部; 主要芯片供应商开发了不受出口管制影响的替代产品; 在ChatGPT的带领下,生成式AI的应用在图像、视频、编码、语音等领域取得了突破性的进展,带动了180亿美元的风险投资和企业投资。 O'Reilly发布的“2023GenerativeAIintheEnterprise”报告显示: 54%的AI用户预计AI的最大好处是提高生产力。 77%的受访者使用AI来辅助编程。其中提到的具体应用包括欺诈检测、教学和客户关系管理。 AI用户表示,AI编程(66%)和数据分析(59%)是最需要的技能。 许多AI采用者仍处于早期阶段:26%的人使用AI不到一年,而18%的人已经在生产中进行了应用。 16%从事AI工作的受访者表示正在使用开源模型。 意外结果、安全性、公平性、偏见和隐私是采用者测试的最大风险。 工业和信息化部赛迪研究院数据显示,目前,我国已有超过19个大语言模型研发厂商。其中,15家厂商的模型产品已经通过备案,预计今年我国大语言模型市场规模将达到132.3亿元,增长率将达到110%。到2027年, 我国大语言模型市场规模有望达到600亿元。 十二、 如果要指出当前LLM种种“不成熟”中我最关切的,我会说“LLM解决方案”。 当前LLM行业面临的一个大方向上的问题是:还没有很好 地从“解决方案”的角度去做技术或者应用。 所谓“解决方案”,是指在设计和开发LLM技术和应用时,首先明确用户的目标,然后围绕目标进行技术研发和应用设计,并且它带有“整体解决”、“解决的不只是某个单点问题”的含义。只有这样,才能确保LLM能够真正解决实际问题,而不是成为“应付式”的工具。 “应付式”问题主要表现在以下几个方面: LLM往往是“一刀切”的,无法根据用户的具体需求进行个性化定制。 LLM往往是“碎片化”的,无法提供完整的解决方案。 LLM往往是“被动式”的,需要用户不断完善输入。什么意思呢?就是我找AI是要解决实际问题的,但它往往都是给我“应付”一下,直接交货了事了,而不善于去追问本质,去了解细节,去思考你最终想要的是一个什么样的东西。它需要你不断完善自己的输入,甚至有时候可能要求在你自身都不知道“可以想要一个什么东西”的情况下去输入。 这样的话其实就是你在输入与输出:整个事情我都想通了,方案我其实也就都出来了,机器给到我的都只是一个个独立性的、小而窄的、解决掉一点一点问题的东西。 举个例子,我说我肚子疼,它会直接告诉我肚子疼可能是因为什么,怎样做可以缓解或者解决,但它不会一点一点进行“望闻问切”全套去引导,了解具体情况,最终再给出切实可行的解决方案。 11 但回过头来想想,这个话题可深可浅,往浅了说,当前LLM产品可以帮助人类翻译、润色一段文字、提炼论文核心内容,这本身也是较为完整的解决方案;当前LLMAgent、LLMOps,甚至只是说开发者的各种“工程化组合骚操作”,实际上已经可以把不同模型、不同模态、不同工具和知识源整合,正是在往“提供更完整的解决方案”这一方向上的发展。 往深了说,或许这本质上就是在要求AGI,而它是一个更 长远的路途了。 而如何将更完备的解决方案给到用户,如何将更平台化、体系化的生成解决方案的技术给到解决方案生产者,是后续LLM应用与技术演进的重要路标。你看GPTs,直接革掉了多少拿OpenAIAPI去套壳的“创新应用”的命?十三、报告介绍 作为《2023中国开源开发者报告》的引导,这里还是把话题拉回来,简介一下整个报告。 前边讲到的LLM领域大放异彩,自然是会作为报告中的一个重要部分,我们策划了一个《2023LLM技术报告》篇章,整体围绕LLMTechMap梳理逻辑来展开。 从基础设施、大模型、Agent、AI编程、工具和平台,以及算力几个方面,为开发者整理了当前LLM中最为热门和硬核的技术领域以及相关的软件产品和开源项目。 是的,先整理了一个LLM技术图谱,欲知详情,请查看后续正文。 【开源治理】开源健康发展必不可少的一环。 【硬核发版】最硬核、最极客的年度发版汇总! 【热门话题】回顾2023年度热门开发者事件! 【重磅官宣】2023年度开源官宣。 【R.I.P.】谨以此篇纪念今年离我们而去的行业巨擘。 最后一个篇章《<Gitee×OSSCompass>Insight:中国 https://t