北京 SME 北京市经济和信息化局北京市中小企业服务中心 AIGC产业链 北京专精特新企业图谱 北京股权交易中心 BeijingEquityTradingCenter 新京报贝壳财经 AIGC行业概况 chatGPT成为行业发展里程碑 历史上用户数量增长最快的消费者应用程序 2022年11月30日,OpenAI推出对话式通用人工智能工具ChatGPT,凭借其出色的语言理解、生成和知识推理能力在上线5天后活跃用户数就达到了100万,在2个月内活跃用户数达1个亿,成为历史上用户数量增长最快的消费者应用程序,受到各国政府、企业界、学术界的广泛关注,推动AGC行业迈出了开拓性的一步。 什么是AIGC? 图:AI根据指令生成文字内容 0请为我介绍专精特新企业 AIGC(Al-Generated专精特新企业是指具有"专业化、精细化、特色化、新额化"特征的中小企业。这些企业专注于某个产业链环 Content),生成式人工智能,指节或产品,拥有高水平的专业化生产、服务和协作配套能力,为大企业和产业链提供零部件和配套产品及服 包括文本、图像、音视频、代码等 利用人工智能技术生成的数字内容 ,它们注重精细化生产,管理和服务,以高品质高性价比的产品和服务在组分市场中占据优势,同时, 这些企业利用特色资源,弘扬传统技艺和地域文化,采用独特工艺、技术、配方或原料,研制生产具有地方 或企业特色的产品。此外,专精特新企业还积极开展技术创新、管理创新和商业模式创新,培育新的增长 形式,属于人工智能技术催生的新 点,形或新的竞争优势,专精特新企业是优质中小企业的基础力量,其中优秀的企业鼓称为专精特新小巨 人"企业, 兴行业。AIGC是基于自然语言处上势客力A生成,不代表开发者立场,事如需除或筛改本标证 理、生成任务算法、预训练大模型 多模态技术融合的前沿人工智能技图:AI根据指令生成图片内容图:AI根据指令生成图片内容 术,通过数据训练寻找规律,利用 泛化能力输出使用者需要的内容。 输入指令输出内容 AI大模型 中国AIGC行业市场规模 根据量子位智库测算,到2030年中国A/GC行业市场规模将达 1.15万亿元。 250中国AIGC市场规模年复合增长率231% 11491亿元2030 200 1502029 100 50 . 2024202520262027202820292030 2027 2026 170亿元2025 2024 2028 2023 LAIGC行业广受政策支持 2023.052023.052023.062023.072023.07 北京市经济和信息北京市人民政府办公北京市委、市政府印国家7部门印发《生北京市海淀区人民化局发布《北京市厅印发《北京市促进发《关于更好发挥数成式人工智能服务管政府印发《关于加通用人工智能产业通用人工智能创新发据要素作用进一步加理暂行办法》快中关村科学城人创新伙伴计划》展的若干措施》快发展数字经济的实工智能大模型创新 施意见》发展的若干措施》 汇聚产业链上下游合着力发挥本市算力资 作伙伴,构建政产学源优势,实施算力伙 提出培育人工智能生国家首个面向生成提出强化布局大模型 研用深度融合的协同伴计划,为创新主体成内容产业发展,发式人工智能行业的规软硬件技术体系;建 联动产业体系,赋能提供多元化优质普惠展人工智能生成语音,范性政策设公共算力,降低大 千行百业数智化转型算力,保障人工智能 图像和自然语言等内模型研发成本;探索 杆城市建设算力需求 助力全球数字经济标 技术创新和产品研发 容,丰富合成数据供 数据利益共享机制; 给推动大模型赋能实体 经济,加快产业重塑 开发ChatGPT具体步骤拆解 01.数据收集02.数据清洗03.数据标注04.模型开发 收集大量自然语言文本数据对收集到的数据进行清洗对数据进行标注,1以便训练设计ChatGPT的模型架构, 如书籍、网络信息等。这去除掉无用的信息模型时能够使用。例如,可包括编码器、解码器等。 些数据将用于训练以为每个单词标注词性、命ChatGPT使用的是 ChatGPT的语言模型名实体等Transformer模型,是一种基于自注意力机制的深度神经网络模型 在大量文本数据上进行模型 微调的目的是使预训练模型 对训练好的模型进行评估 将训练好的模型部署到服务 预训练,但没有特定的任务 适应特定任务,例如情感分 检查其性能是否达到预期 器上,以便用户可以与模型 目标,目的是让模型学会理 析、机器翻译等。在微调期 可以使用一些指标,如准确 进行交互 解语言的结构、语义和一些 间,模型将一小部分标记好 率、召回率等来评估模型的 基本的知识。训练过程中需 的训练数据(例如,带有情 性能 要使用大量的算力资源,如 感标签的文本,源语言和目 搭载GPU的AI服务器。训 标语言的对应文本等)作为 练时间长达几天基至几周 输入,并利用这些数据优化 05.模型预训练06.模型微调07.数据评估08.模型交互 模型参数 LAIGC重点发展行业 贝壳 自然语言处理和自动驾驶生物医药金融行业计算机视觉 用天文本生成!机用于车辆感知、路通过模拟和预测药基于市场数据和经器翻译,图像识别径规划和驾驶决策物分子的结构和性济指标,生成投资与生成、视频分析等方面,提升自动质,提高药物研发组合策略,优化风等方面。驾驶车辆的安全性的效率和成功率。险和回报的平衡, 和行驶效率。提供金融投资意见, AIGC产业链 北京市专精特新企业情况 LAIGC产业链分层 应用层 包括各种使用AIGC技术的应用程序和产品,例如,聊天机器人、智能客服、智能证件照等,是AIGC行业的商业化落地途径 数据层模型层 AGC产业链的基础层级,包括用于训练和微调模型的各种 文本、图片和音视频数据集 AIGC产业链的核心层级,例 如用于自然语言处理和生成的 Transformer模型,通过学 习数据层中的数据知识,具备 为模型提供深度学习的“养料了理解和生成自然语言的能力, 是实现AIGC功能的关键 算力层 为AIGC产业链提供底层硬件算力支撑,包括用于训练和部署模型的AI芯片、 AI服务器等计算设备,使模型能快速训练和优化 userid:414195,docid:144261,date:2023-10-31,sgpjbg.com 北京A企业数量居全国各省市第一 2200家 全国人工智能企业 占比28% 618家 北京人工智能企业 数据来源:中国新一代人工智能发展战略研究院发布的 《2023中国新一代人工智能科技产业发展报告》 北京有57家专精特新企业处在AIGC产业链 算力层数据层模型层应用层 财经 14家11家10家22家 数据来源:北京市经济和信息化局 算力层:价值占比最高 算力占据AIGC产业链约65%的成本,数据及模型算法占据剩下35%的成本。 23 人力、电脑设备等成本12% 模型 i 数据收集、数据标注等服务% 数据 AI芯片、AI服务器等硬件 算力 65% 算力层:算力存在明显短缺情况 2019根据浪潮预测,未来五年内,智能算力需求的年均复合增长率 为47.5%,算力存在明显短缺情况。 2020 2021 2022 到2026年中国智能算力需求规模为 2023E1271 2024E 2025E 2026E 2004006008001000120014000 EFLOPS 算力层:A芯片领域被“卡” AI芯片是算力硬件中的核心,价值占据算力成本的50%以上,目前以GPU为主。其 中高算力GPU市场基本被美国英伟达公司断,而美国政府禁止英伟达向中国出口其 尖端人工智能芯片,涉及A100、H100等型号,国产GPU在性能和良率方面存在较 大的差距,因此我国AI芯片领域存在严重的“卡脖子”问题。 被卡 X8个 组成组成 ZnWDA 8个英伟达A100多个英伟达 GPU作为核心部件DGXA100AIA数据中心机柜服务器作为核心 部件 【算力层:北京专精特新企业情况 14家企业 在AIGC行业的算力层, 16 个专利 有14家北京市专精特新企业深耕领域,具有较强竞争实力,他们平均每家拥有发明专利16个,平均深 耕行业8年以上,平均营 业收入超1.8亿元。 平均营收 1.8亿元 算力层::有代表性的北京专精特新企业 摩尔线程中科取数清微智能第能 摩尔线程 中科驭数 清微智能 算能科技 由前英伟达全球副 国内DPU芯片领域 核心团队来自清华 国内领先的通用算 总裁张建中创立, 唯一拥有自研核心 大学,公司专注于 力提供商,专注 国内为数不多能够 架构能力的企业 可重构计算 AI,RISC-VCPL 覆盖GPU研发设计被评为中国信科 (CGRA)芯片的 等算力产品的研发 生产制造、市场销潜在独角兽" 研发和创新,为AI 和推广应用,为智 M.OORETHREADSHnsnxTSINGMICROSOPHGO 经 售、服务支持等完训练、推理,NLP算中心、智能制造、 整流程的创业公司,DPU是继CPU自动驾驶,生物计AIGC等应 并于2022年发布GPU之后,数据中算等通用计算场景用场景提供算力产首颗国产全功能心场景中的第三颗提供高性能算力支品及整体解决方案。GPU,能够为AI大重要的算力芯片。持。 模型提供强大计算自2016年以来 加速能力。中科驭数在芯片领公司曾获国家技术旗下品牌算丰 截至目前,摩尔线 术积累,至今已进 金奖、科学技术奖 品已完成多次选代 程估值超150亿元, 行三代DPU芯片的 技术发明一等奖等 每代产品相较于前 迈入独角兽行列。 研发选代。 多个奖项。 代产品均实现能耗 比倍数级提升。 域有近二十年的技发明奖、中国专利SOPHON系列产 数据层:数据是AIGC行业的 GPT-2 GPT-3 ChatGPT GPT-4 2019.02 2020.05 2022.11 2023.03 谷歌GPT Transformer2018.06 2017.06 “能源” 在大规模无标将GPT的参数注文本语料上量扩充至 利用人类反馈的强化学习方 性能进一步得 到增强,增加 训练的GPT模 型,在Zero- shot零样本条 1750亿,利 用上下文学习 在小样本 法来增强模型 的对话能力, 成为现象级人 图像识别能力, 输出内容准确度、创意度提 谷歌首次提出利用大规模无 Transformer标注文本,基 架构,成为于Trans- GPT模型的基former解码 础。器部分,先训 练生成语言模件下完成NLPFew-shot任工智能应用。升。 型,再根据具任务。务上取得优异 体下游任务进性能。 行微调。 参数规模 参数规模 参数规模 参数规模 1亿 1.17亿 15亿 1750亿 参数规模参数规模 基于GPT-3未知 训练数据规模训练数据规模训练数据规模训练数据规模训练数据规模训练数据规模5GB5GB40GB45TB基于GPT-3未知 数据层:数据集环节存在“堵点” + 斯坦福大学吴恩达教授提出 二八定律:80%的数据更好的AI +20%的模型=更好的Al 当前,主流数据集多以英文为主,中文数据集紧缺。根 据360分析,中文语料数据 80%的数据20%的模型 集占比低于5%。此外,中文5%数据集体量占比 预料数据集质量差,数据集 种类和内容缺乏多元化,专口其他数据集 用领域数据集基本空白,在政府、医学、金融等公共领域的开源数据稀缺。对比之下,美国拥有大量的文本、目标检测数据集。因此,中国AIGC产业链的数据集环节 存在“堵点”。 口中文数据集95% 【数据层:我国A数据服务市场规模持续扩容 艾瑞咨询数据显示,我国A/基础数据服务行业 101.1亿元 120 市场规模预计将从2018年的25.9亿元增长至 802025年的101.1亿元,CAGR为21.5%。 60 40 20 25.9亿元 201820192020E202120222023E2024E2025E 【数据层:北京专精特新企业情况 平均营收增长率 在AIGC行业的数据服