市场回顾 本周(7.17-7.21)沪深300指数下跌1.98%,中小板指数下跌3.20%,创业板指数下跌2.74%,计算机(中信)板块下跌5.59%。板块个股涨幅前五名分别为:栢楚电子、海航科技、卫宁健康、联络互动、多伦科技;跌幅前五名分别为拓维信息、中新赛克、金溢科技、启明信息、锐明技术。 行业要闻 工信部:计划出台推动算力基础设施发展政策,加强GPU等重点产品研发。 工信部:面向电信和互联网等重点行业以及新兴联合领域开展网络安全保险服务试点。 工信部:促进新型互联网交换中心与算力网络融合发展。 公司动态 汇金股份:7月18日消息,公司已完成工商变更登记。 东方通:7月19日消息,公司拟每10股派发现金红利0.30元(含税),不送红股,不以资本公积金转增股本。 本周观点 投资建议:AI在复制2010-2012年TMT的供给侧迈向2013-2015年TMT的应用侧路径的基础上,LLaMA 2和MS 365 Copilot商业化落地进一步加速应用侧兑现的技术基础和商业模式基础。 在2月-5月的大模型普及过程初期,英伟达美股总市值突破万亿美元,持续创历史新高,背后反映算力的清晰路径持续被大众认可。而此次LLaMA2的商用化,其内核是全球AI开发者再度迎来模型平权的黄金时点,映射至AI应用开发驶入快车道。最终加速实现在软件先行定义一切基础,有望迈向2013-2015各类物联网终端变革与应用侧的新阶段,建议关注: 1)AI相关产品落地顺利并带来相关业务数据改善、可跟踪的行业龙头:中科创达、科大讯飞、金山办公、同花顺、萤石网络; 2)网络可视化行业是5G+AI算力+AI监管+数据要素的黄金交点:行业龙头包括恒为科技、浩瀚深度、中新赛克等以及美亚柏科、吉大正元、人民网等AI监管与数据安全标的; 3)大模型B端应用 效率工具:OA(泛微网络、致远互联)、低代码平台(普元信息、金现代)、邮箱(彩讯股份)、5G消息(梦网科技)、GIS(超图软件)等; 率先落地的行业:司法(金桥信息)、教育(佳发教育、盛通股份、鸥玛软件)、电力(国能日新、国网信通、恒华科远)、煤矿(梅安森)等。 风险提示 政策落地不及预期;行业竞争加剧。 1本周观点 LLaMA 2超预期发布使得AI应用加速兑现拥有重要技术基础。2023年7月18日,Meta发布开源大模型LLaMA2,与上一代LLaMA相比,LLaMA 2有着性能接近GPT3.5、允许商用、安全性更强、与科技巨头联合打造全方位开源生态的特点。本次开源的大模型包含70亿参数、130亿参数、700亿参数三类,相比于LLaMA1,LLaMA2的训练数据多40%,上下文长度达到4096tokens,并采用了分组查询注意力机制。LLaMA2预训练模型是在2万亿tokens上训练的,精调Chat模型是在100万人类标记数据上训练的。 表1:LLaMA2重点参数汇总 Office365copilot定价超预期体现出AI应用的刚需性。Office365Copilot定价为为原套餐基础上加30美元。据微软blog,微软表示使用Copilot的客户越多,客户对Copilot的热情就越高,很快没有人愿意在没有它的情况下工作。 图1:Office 365 Copilot定价 1.1LLaMA2无限接近GPT3.5且有明确提升空间 LLaMA2沿用LLamA1中大部分预训练设置和模型架构,应用RMSNorm进行预归一化处理,使用了SwiGLU激活函数以及旋转位置嵌入。与LLaMA1相比,主要的架构差异包括增加的上下文长度和分组查询注意力(GQA),超参数方面使用了AdamW优化器。此外,LLaMA2采用余弦学习率调度,热身阶段为2000步,将最终学习率衰减到峰值学习率的10%,在预训练2T标记后,模型仍然没有显示出饱和的迹象,模型仍有提升空间。使用了与LLaMA1相同分词器。 图2:LLaMA2技术架构 据LLaMA2官方技术报告,LLaMA2 70B与GPT3.5在各类主流测评中得分相差很小,仅次于GPT4和PaLM2两个顶级大模型,LLaMA 2与GPT3.5的差距主要在编程能力。其中,MMLU是综合打分、TriviaQA和NaturalQuestions偏重世界知识、GSM8K偏重数学能力、HumanEval偏重代码能力、Big-bench Hard是综合打分。 图3:LLAMA270B得分已经接近GPT3.5 在开源模型中,LLaMA270B在各类主流测评中得分均处于领先地位。 图4:LLAMA270B得分超越各类开源模型 LLaMA技术报告明确提出,基于性价比均衡角度,LLaMA2系列模型只训练2Ttokens数据,模型仍然没有饱和。LLaMA2预训练主要是思路是在LLaMA的基础上进行改进:1)更好的数据清洗方式;2)新的数据混合方式;3)训练数据中标记数据更多;4)70B和34B版本使用GQA提高大模型推理可拓展性。最终,在性价比均衡的前提下,四个版本的LLaMA都采用了2Ttokens训练数据,最终学习率衰减到峰值学习率的10%,模型仍然没有饱和。 图5:模型训练损失 在训练设施方面,IB和RoCE相结合,更加经济实惠。LLaMA2在Meta的研究超级集群(RSC)以及内部生产集群上对我们的模型进行预训练,这两个集群都使用NVIDIAA100。这两个集群之间有两个关键的区别,RSC使用NVIDIAIB,而内部生产集群配备了基于商品以太网交换机的RoCE解决方案。据华为,IB设计之初就考虑了RDMA,从硬件级别保证可靠传输,提供更高的带宽和更低的时延,但是成本高,需要支持IB网卡和交换机;RoCE基于Ethernet做RDMA,可以使用普通的以太网交换机,但是需要支持RoCE的网卡,成本更低。这两种解决方案都是相互连接到200 Gbps的端点,每个GPU的功耗上限——RSC使用400W,而内部生产集群使用350W,MetaRoCE可以扩展到最高2000GPU,同时使用优化代码的方式使RoCE达到了RSC训练效果的90%。据SparksofAGI,LLaMA的报告显示RoCE相比IB在效果不劣的情况下,更加经济实惠,国内有望转向RoCE,因为IB一方面成本高,另一方面有被禁的风险。 表2:RoCE和InfiniBand比较 与LLaMA相比,LLaMA2训练时长有显著提高。LLaMA2-7B/13B相比同样参数的LLaMA训练所需GPU小时分别提升124%/173%。 图6:LLaMA训练参数 图7:LLaMA2训练参数 预训练数据方面:注重安全和隐私,英文数据占比89.7%,缺乏code数据 1)训练语料库包含来自公开来源的新数据组合,其中不包括来自Meta产品或服务的数据; 2)努力从某些已知包含大量个人信息的网站中删除数据; 3)最终训练数据为2万亿标记的token,同时对最可靠来源进行筛选,保证更多知识和更少幻觉; 4)进行了各种预训练数据调查,以便用户更好地了解模型的潜在能力和局限性,保证安全; 5)英文数据占比89.7%; 6)据SparksofAGI:Meta发布LLaMA是在2月开始逆向解耦,当时并不知道Code数据那么重要;到5~6月有报道/文章提到code数据比例问题时已经为时已晚。 图8:LLaMA2英文数据占比89.7% 本次报告没有披露LLaMA2预训练数据来源,参考LLaMA预训练数据,LLaMA2预训练数据可能来自于CommonCrawl、 C4 、Github等公开数据。据SparksofAGI,LLaMA 1用了1.4T Token;LLaMA 2用了2T Token,数据规模增长原因:1)LLaMA Data Mixture相比Chinchilla Data Mixture的增长速度更快;2)Chinchilla Optimal只是Computational Optimal,是训练资源受限的产物,现在大模型一般预训练数据规模都训练超过了Chinchilla Optima规模。 表3:LLaMA预训练数据数据集占比 LLaMA2使用监督微调(SFT)、RLHF等多种微调技术保证微调效果。Meta人工注释了27540个高质量的SFT数据(因为Meta发现不同的注释平台和供应商可能导致明显不同的模型性能)。在RLHF过程中,Meta每周收集人类偏好数据改进奖励模型,还单独针对有用性和安全性训练独立奖励模型。Meta认为现有数据注释的扩展性能尚未达到平台期,通过注释、奖励模型的改进可以直接转化为LLaMA2-Chat产品的改进。据SparksofAGI,SFT类似跟着教科书学习,RLHF是自己做实验一步步改进,因此RLHF优点是通过reward泛化能学到深层次的逻辑和繁华,而不只是浅层的对齐,避免shortcuts learning(捷径学习),但RLHF存在Reward Gaining & Back Assignment的问题,有效的训练方式应当是SFT后模型达到不错水平,能够继续根据RLHF强化。 图9:LLaMA2SFT数据示例 开源社区中,LLaMA2的优化版本层出不穷。截至7月22日,Huggingface社区名称中包含LLaMA2的大模型已经超过400个,其中包含众多极具特色的版本,如能够在AMD5600X本地运行的LLaMA27BGGML等。 图10:部分开源社区微调的LLaMA2版本 LLaMA2通过以下方法保证安全性:1)奖励建模:使用人类偏好数据训练奖励模型,使模型生成更符合人类期望的输出;2)安全测试集:使用安全测试集评估模型的安全性,确保模型不会生成有害或不安全的内容;3)数学数据集:使用数学数据集评估工具使用性能,确保模型能够正确使用数学工具;4)迭代评估:对模型进行多次迭代评估,不断改进模型的安全性。在此基础上,Meta使用红蓝队攻防的方法进行改进,最终LLaMA的安全性与GPT3.5水平接近。 图11:LLaMA2安全性水平与GPT3.5接近 1.2LLaMA 2有望联合科技巨头建立强大开源生态 LLaMA 2基本支持商用,主要限制条款如下: 1)月活7亿以上的被许可方(含关联公司)需要向Meta申请许可; 2)不允许使用LLaMA的材料、生成结果(Llama Materials or any output or results of the Llama Materials)用于改进其它大模型(LLaMA2及衍生模型除外); 3)Meta《LLaMA2技术报告》中intendeduse中提到使用英文以外的其它语言是Out-of-Scope Uses,没有具体说明该条款是否为强制。 微软和Meta公司通过Azure和Windows平台上的Llama 2扩展其人工智能合作伙伴关系。据微软官网,Meta和微软是人工智能领域的长期合作伙伴,双方曾合作将ONNX Runtime与PyTorch集成,在Azure上为PyTorch创造良好的开发者体验,Meta还选择Azure作为战略云提供商。LLaMA2与Azure AI的结合使开发人员能够利用Azure AI的强大工具进行模型训练、微调、推理,特别是支持AI安全的功能。此外,在Windows中加入Llama 2模型有助于推动Windows成为开发人员根据客户需求构建人工智能体验的最佳场所,并释放他们使用WSL、Windows终端和VS Code等世界级工具进行构建的能力。 图12:Azure已经全面上线LLaMA2大模型 高通和Meta正在合作优化Meta Llama2大语言模型直接在终端侧的执行,无需仅依赖云服务。据高通官网,能够在智能手机、PC、VR/AR头显和汽车等终端上运行Llama 2一类的生成式AI模型将支持开发者节省云成本,并为用户提供更加私密、可靠和个性化的体验。因此高通计划支持基于Llama 2的终端侧AI部署,以赋能打造全新AI应用,这将支持客户、合作伙伴和开发者构建