大模型时代下的个人成长 吴锦晟 2023.9 •近20年coding的经验; •AI领域的创业,声纹和虹膜识别方向; •参与部委多个智能算力及AIGC政策制定; 吴锦晟 资深技术专家 首都在线生态副总裁 TGO(上海)学员 •多个城市级智算中心的规划和落地; •经历数个大模型的训练过程; •大规模推理应用部署和交付经验; •2020年加入TGO; 大模型时代的个人成长 ①大模型的演进史与未来洞见 ②关于大模型,我们应当了解的 ③国内大模型的产业链情况 ④大模型时代的个人成长——以个人为例 大模型的演进史与未来洞见 GPT与国产大模型的演进时间轴 大模型的演进史与未来洞见 动机:AGI快速推动NLP的发展 •神经网络语言模型发展迅速 •2017-18年,随着Transformer的诞生,语言模型规模迅速扩大 •数据规模:使用数T大小的纯文本训练;模型规模:从1亿参数到1750亿参数 •BERT,GPT-1/2(成本~$30k)->GPT-3(成本~$12M)->GPT-4(?) •早在2020年GPT-3时,人类已开始无法准确识别其生成的新闻“涌现” 大模型的演进史与未来洞见 发展:AGI为何受到重视 •大规模模型的摩尔定律:模型算力需求迅速增长 -单模型计算量每年增长10倍 •机器智能的规模效应:量变到质变的能力 -千亿稠密参数(~100B,或1023FLOPs训练量)时模型能力开始出现“涌现” 关于大模型,我们应该了解的——核心能力(1/2) 涌现 Wewillconsiderthefollowinggeneraldefinitionofemergence,adaptedfromSteinhardt(2022)androotedina1972essaycalled“MoreIsDifferent”byNobelprize-winningphysicistPhilipAnderson(Anderson,1972): Emergenceiswhenquantitativechangesinasystemresultinqualitativechangesinbehavior. 涌现是指系统的数量变化导致行为的质量变化。 Inthispaper,wewillconsiderafocuseddefinitionofemergentabilitiesoflargelanguagemodels: Anabilityisemergentifitisnotpresentinsmallermodelsbutispresentinlargermodels. 如果一种能力不存在于较小的模型中,但存在于较大的模型中时,就是涌现能力。 1.EmergentAbilitiesofLargeLanguageModels 关于大模型,我们应该了解的——核心能力(2/2) 几个最常用的涌现能力 •Translation60B •Math60B •In-contextLearning130B •Chain-of-thoughtreasoning130B •Knowledgecombination530B •EmotionPerception530B 大模型的演进史与未来洞见 2022年DISCODiffusionMidjouneyStableDiffusion 《太空歌剧院》,该作品在美国科罗拉多州的美术大会上获得了数字艺术部门的第一名,AI绘画自此走入聚光灯下 生成式AI从现有的内容中学习,以生成反映训练数据特征的新的、逼真、但并不重复的内容。生成式AI可 以生成各种新颖的内容,例如图像、视频、音乐、语音、文本、软件代码和产品设计。 关于大模型,我们应该了解的——应用场景(1/3) 关于大模型,我们应该了解的——应用场景(2/3) 关于大模型,我们应该了解的——应用场景(3/3) AIGC应用场景广泛,其功能覆盖各个板块,我们将其分成生成应用和布局、搜索和数据分析、程序生成和分析、文本生成、内容创作、一般推理和其他七部分。 大模型的演进史与未来洞见普惠性用的上工程化 国内大模型产业链情况 AI云平台基础设施硬件 算法 LLM 算力 数据 数据平台数据集 网络运营商 (3C/海外运营商) 通用大模型服务商 (科研机构/商业公司) 数据运营商 (政企/行业/头部商业公司) 服务支撑 (数据标注/算力适配/训推平台…) 应用与行业软件开发商 (2B/2C) 国内大模型产业链情况 上游 中游 下游 基础设施供应商 (数据中心风火水电) 云服务商 (IaaS/PaaS/MaaS/模型仓库…) 垂直大模型服务商 (行业/垂类) 硬件设备供应商 (芯片/服务器/存储) 中间件服务商 (训练框架/向量数据库/隐私计算…) 国内大模型产业链情况 发展 挑战 •大模型向多模态发展; •智能算力拥有更高性能; •大模型训练效率和性能优化; •有质量的中文数据集的量级提升; •模型的服务化(MaaS); •法律法规的完善,标准的建立; •人才体系的建设和队伍的完善; •硬件的卡脖子; •人才和技术瓶颈; •商业模式的明确; •安全和隐私; •数据的问题; •合规的考验; 大模型时代的个人成长——以自我为例 50%技术 60%业务 60% 战略 (布局,模式设计,目标执行) (愿景、地位、样子) 100% 技术 40% 产研 50% 管理 40% 影响力 (产业、市场) L1:研发 L2:技术管理 L3:业务管理L4:行业领袖 L1:技术成长——以大模型的技术体系为例 业务应用能力 工程能力 微调技术 LLM服务部署 应用开发 专业能力 深度学习 预训练工程 LLM核心技术 基础能力 数学 计算机编程 L1:技术成长——看不见的软技能 L1:技术成长——看不见的软技能 埋头傻干职场油条眼高手低平衡发展 L2:技术管理——实践方法论 品鉴师or厨师长? L2:技术管理——实践方法论 个人成长——自我的突破 大模型时代的个人成长——大模型对我的影响 •提供知识,随身的知识库 •结构化的梳理内容 •帮我撰写各类文件 •建立大模型相关的知识体系 •拓展产业圈的人脉 大模型时代的个人成长——回顾近一年的历程 •AGIInfra •AIGC •国产化适配 •英伟达产能及异构计算 •AGI培训 大模型时代的个人成长——自我思考(1/3) 如果机器能够思考,我们应该具备怎样的能力? 大模型时代的个人成长——自我思考(2/3) 自我成长的动力循环 想干 什么 技能管理 目标管理 能干 什么 执行力 干了 什么 大模型时代的个人成长——自我思考(3/3) •技术的升级和转型 •跨学科的素养和融合 •善于实践的能力 •勇于创新和探索 •做好职业规划和目标的调整 大模型时代的个人成长——应对变化的判断 •技术发展的趋势 •行业的变革 •政策和法规 •市场的需求 •国际形势 维度 •历史经验 •技术的关键突破 •市场需求 •社会关注点(热度) •大家的意见 大模型时代的个人成长——验证的方法 •自身的实际情况 •科学的数据分析 •实践的结果 •前瞻性技术的自我判断 最后 智谱清言 chatglm.cn 首云曜图创作平台 lumicanvas.capitalonline.net