SenseTimeGroupInc. 商汤集团股份有限公司 (于开曼群岛注册成立以不同投票权控制的有限公司) 股份代号:0020 中期报告 2023 目录 公司资料2 主要摘要4 主席报告5 管理层讨论与分析13 中期财务资料的审阅报告23 中期简明综合收益表24 中期简明综合全面亏损表25 中期简明综合资产负债表26 中期简明综合权益变动表28 中期简明综合现金流量表29 中期简明综合财务资料附注31 其他资料81 释义97 公司资料 董事会 核数师 执行董事 徐立博士(董事会执行主席)汤晓鸥教授 王晓刚博士徐冰先生 非执行董事 范瑗瑗女士 独立非执行董事 薛澜教授林怡仲先生厉伟先生 审计委员会 林怡仲先生(主席)范瑗瑗女士 厉伟先生 薪酬委员会厉伟先生(主席)林怡仲先生 徐立博士 提名委员会厉伟先生(主席)徐立博士 薛澜教授 企业管治委员会薛澜教授(主席)厉伟先生 联席公司秘书 林洁敏女士 黄慧儿女士(FCG,HKFCG) 授权代表 徐冰先生林洁敏女士 合规顾问 海通国际资本有限公司香港 中环 港景街1号 国际金融中心1期 3001–3006室及3015–3016室 2商汤集团股份有限公司2023中期报告 林怡仲先生 罗兵咸永道会计师事务所 执业会计师 注册公众利益实体核数师香港 中环 太子大厦22楼 注册办事处 ThirdFloor,CenturyYardCricketSquareP.O.Box902GrandCayman,KY1-1103CaymanIslands 中国总部及主要营业地点 中国上海市徐汇区 虹梅路1900号邮编:200233 香港总部及主要营业地点 香港沙田 香港科学园 科技大道东12号海滨大楼1座2楼 香港法律顾问高伟绅律师行香港 中环 康乐广场1号怡和大厦27楼 公司资料 香港证券登记处 股票代码 香港中央证券登记有限公司香港 湾仔 皇后大道东183号合和中心17楼1712-1716号铺 主要股份过户登记处 TricorServices(CaymanIslands)LimitedThirdFloor,CenturyYard CricketSquareP.O.Box902GrandCayman,KY1-1103CaymanIslands 主要往来银行 中国银行股份有限公司中国 北京市西城区 复兴门内大街1号 中国工商银行股份有限公司上海市分行 中国上海市 浦东新区浦东大道9号 中国建设银行股份有限公司中国 北京市西城区 招商银行股份有限公司中国 深圳市福田区 深南大道7088号 招商银行大厦 商汤集团股份有限公司2023中期报告3 金融大街25号 0020(港币柜台) 80020(人民币柜台) 本公司网站 www.sensetime.com 4商汤集团股份有限公司2023中期报告 主要摘要 财务概要 截至6月30日止六个月 2023年 占总收入金额百分比(未经审计)(人民币千元,除非为百分比) 2022年 占总收入金额百分比 (未经审计) (人民币千元,除非为百分比) 同比变动 收入 1,433,122 100.0 1,415,343 100.0 1.3% 毛利 648,673 45.3 934,043 66.0 –30.6% 期间亏损 (3,142,624) (219.3) (3,207,988) (226.7) –2.0% 非国际财务报告准则计量:经调整EBITDA (2,025,854) (141.4) (2,322,546) (164.1) –12.8% 经调整亏损净额 (2,393,395) (167.0) (2,564,180) (181.2) –6.7% 运营数据 截至6月30日止六个月 2023年 2022年 同比变动 智慧商业的客户数量 481 512 –6.1% 智慧生活的客户数量 270 183 47.5% 智能汽车的客户数量 34 20 70.0% 于2023年 6月30日 于2022年12月31日变动 智慧城市累计服务的城市数量 163 1620.6% 二零二三年上半年,我们的收入表现稳健。我们借助大装置的丰沛算力,加快推进“日日新”大模型体系下大语言模型及文生图模型的研发,积极拓展生成式人工智能(GenerativeAI)业务。我们于二零二三年六月联合多家国内顶尖科研机构发布了预训练大语言模型InternLM,成为国内首个超越GPT-3.5-turbo性能的基座模型,并在“日日新”大模型基础上发布了生成式AI产品族“商量SenseChat”、“秒画SenseMirage”、“如影SenseAvatar”等,引领了集团业务的转型,生成式AI相关业务录得了三位数同比强劲增长。 我们对本公司的智能计算基础设施-SenseCoreAI大装置持续升级,上线GPU数量由2023年3月底的27,000块提升至日前的约30,000块,算力规模从5ExaFLOPS提升至6ExaFLOPS。我们不断投资和创新SenseCore的能力,为日益增长的大模型训练及推理需求提供了可靠、先进的研发环境和充沛的算力供应。2023年以来,共有超1,000个参数量数十亿至上千亿的大模型在大装置上完成训练,实现了领跑行业的技术迭代进度;支持了数十款生成式AI应用。 2023年至今,我们联合多家国内顶尖科研机构,投入了约10,000张GPU在大语言模型的研发上,使其能力实现飞跃式发展: 国内最早推出的基于千亿参数大语言模型的聊天机器人产品之一; 主席报告 整体表现 •2023年4月,“商量SenseChat1.0”发布,是中国 •2023年6月,首个综合能力超越GPT-3.5-turbo的基模型InternLM发布,参数量1040亿,使用1.6万亿token的多语言语料训练,支持语言达20多 种,并在此基础上于7月初发布了“商量SenseChat2.0”; •2023年8月,新模型InternLM-123B完成训练,新模型参数量提升至1,230亿。新模型的语言、知识、理解、推理和学科五大能力均显着提高。InternLM-123B模型在全球51个知名评测集(包括MMLU,AGIEval,ARC,C-Eval,RACE,GSM8K等)共计30万道问题集合上测试成绩排名全球第二,超过GPT-3.5-turbo以及Meta新发布的LLaMA-2-70B等模型。InternLM-123B不仅生成的内容更加准确、可靠,可在复杂场景中进行多步推理和计算,还具备了自主反思及修正错误的能力。InternLM-123B也重点升级了代码解释器及插件调用能力(functioncalling),可使用python解释器、API调用和搜索三类常用工具来解决复杂任务、灵活搭建AI智能体应用。在此基础上商量SenseChat将会在9月内升级到3.0版本。 商汤集团股份有限公司2023中期报告5 主席报告 InternLM-123B在主要评测集上的表现及与国际其他领先模型的比较 评测集 InternLM- 104B InternLM- 123B ChatGPT GPT-4 LLaMA-2-70B 综合考试 MMLU 64.3 72.9 69.1 83.0 69.8 C-Eval 54.4 67.5 52.5 69.9 50.1 AGIEval 37.1 57.8 39.9 55.1 40.0 ARC-c 76.6 90.2 83.7 93.6 78.3 ARC-e 85.5 91.9 88.9 95.4 85.9 知识问答 CommonSenseQA 70.5 88.5 80.2 88.3 78.3 NaturalQuestions 29.6 36.8 27.0 40.4 34.2 阅读理解 C3 62.8 95.5 85.6 95.1 79.0 CMRC 40.0 62.9 40.1 42.6 43.7 RACE(Middle) 83.4 94.9 85.6 93.7 81.6 RACE(High) 79.2 91.7 80.3 91.0 79.9 LAMBADA 77.7 87.0 57.5 65.5 78.9 推理 WinoGrande 68.7 86.4 58.8 78.9 69.8 StoryCloze 78.6 99.8 97.2 99.5 89.7 HellaSwag 81.3 91.8 79.5 91.4 82.3 StrategyQA 73.0 81.7 66.1 79.7 74.7 PIQA 82.2 86.3 81.7 89.2 82.5 SIQA 62.6 82.4 72.4 70.1 64.8 BigBench-Hard 59.5 71.1 70.1 86.7 64.9 数学 GSM8K 52.7 76.4 78.2 91.4 63.3 6商汤集团股份有限公司2023中期报告 注:黑体代表在该评测中的最优表现模型;下划线代表在该评测中的次优表现模型。 主席报告 •制作高性能模型对训练数据的体量和质量都有着极高的要求,而模型的价值观及安全性也受训练数据影响。我们积累的原始语料数据总体量已行业领先,我们投入了数百台服务器搭载千卡GPU的计算资源,采用算法结合人工的方法对原始语料数据进行分门别类的精细化清洗,以确保数据的质量、安全性和价值观都符合要求。我们已实现每月产出约2万亿token的高质量数据,预计年底高质量数据储备将突破10万亿token,以支持更加强大的基模型的训练。 1 InternLM-7b-chat模型在MMLU、AGIEval、HumanEval、FlagEval、SuperCLUE等国际、国内主流评测集对于在轻量级模型的评测中排名第一 商汤集团股份有限公司2023中期报告7 •我们与多家科研机构合作推进AI开源平台建设。InternLM-7B(70亿参数)的部分训练数据、训练代码及基模型权重已经向学术界及工业界开放、支持商用,并登顶多个模型测试榜单成为性能最好的轻量级基模型1,在多个榜单InternLM-7B还超过了参数量更大的LLaMA2-13B(130亿参数)。近期也将开源能力更加强大的InternLM-20B模型(200亿参数),InternLM-20B具备优秀的调用工具的能力,同时适中的模型大小使得其运行成本较低,适合构建各类应用。我们有着将我们的基础设施和AI工作开源的长久历史,从我们2018年最早开源的计算机视觉框架OpenMMLab(8.7万GitHub星标),已经扩展到了决策智能、大语言模型、数据平台、高性能训练和推理框架、AI智能体框架等更多AI工具的开源;我们的基础设施SenseCore也积极对外服务,支持了众多学术和商业机构。开源、开放让我们的工作能够使整个行业受益,并促进更广泛的合作创新。我们期待看到AI社区对InternLM的改进和更多AI应用的共建。 我们的另一项重要研发目标是训练出全球前三的文生图模型。我们投入了约2,000张GPU在文生图模型的研发上,实现了文生图能力的快速迭代: •2023年1月,秒画1.0搭载商汤自研8亿参数扩散模型打开内测,用户可以输入提示词生成二次元动漫图片。 •2023年4月,秒画升级2.0并正式对外发布,是商汤首款基于14亿参数文生图模型打造的C端应用,打造通用领域的基础模型,无论是写实照片、艺术画作、还是科幻场景,模型生成的图像都能根据用户需求,带来真实的光影效果以及丰富的细节内容。 •2023年7月,秒画升级3.0,基模型参数量提升至70亿,并采用全新的生成模型架构,带来更好的图片生成效果和精细度,实现专业摄影级的图片细节刻画。秒画3.0也实现了提示词(Prompt)补全功能,用户只需输入少量简单提示词即可创造高质量画作,大幅简化了提示词工程的难度。秒画3.0核心算法在COCObenchmark上超过了Imagen与DALL•E2。出图效果国内领先,全球跻身前三。 •秒画4.0预计在2023年三季度内推出,基模型升级的同时也将