您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[民生证券]:计算机周报:当大模型不再稀缺:得数据者得天下 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机周报:当大模型不再稀缺:得数据者得天下

信息技术2023-04-09吕伟民生证券球***
计算机周报:当大模型不再稀缺:得数据者得天下

市场回顾 本周(4.3-4.7)沪深300指数上涨1.79%,中小板指数上涨2.11%,创业板指数上涨1.98%,计算机(中信)板块上涨5.23%。板块个股涨幅前五名分别为:久远银海、万达信息、全志科技、神州泰岳、美亚柏科;跌幅前五名分别为:当虹科技、凌志软件、国联股份、盛视科技、彩讯股份。 行业要闻 券商中国:ChatGPT的安全问题正引起高度重视 百度:AI技术的发展为跨学科融合创新带来巨大机遇,在基础科学研究领域,AI for Science正在成为科研新范式 国家税务总局:一季度新能源车制造业销售收入同比增长35.2% 36Kr:多家AI企业坦言大模型尚处研制阶段,行业应用落地存在不确定性公司动态 普联软件:4月3日消息,公司本次向5名特定对象发行人民币普通股股票1,810,147股。本次发行完成后,公司总股本由141,964,567增加至143,774,714股 银信科技:4月4日消息,公司2023年第一季度银信转债因转股减少0张,转股数量为0股,剩余债券3,912,352张,剩余可转债金额为391,235,200元本周观点 大模型表面不再稀缺后,实质格局更像“太极拳”:易学难精。因为开源基础以及大公司本身的算力储备与资金实力,单纯发布一个大模型门槛没有市场想象那么高(我们周报不完全统计国内目前公开已经30多家大模型,不乏参数规模超过GPT的,涵盖互联网巨头,AI巨头、学术机构与创业公司)。但是能够拥有高质量数据场景助力持续迭代,使得逐步性能逼近ChatGPT的大模型预计最终仍是“凤毛麟角”。市场会逐步凝结共识:得数据者得天下。数据是差异化竞争关键,建议关注三类机会: 1、在A股以【三六零】为代表这类同时拥有搜索引擎、浏览器与办公插件等高质量通用数据卡位的大模型公司将愈发显得稀缺,将成为投资聚焦点;谷歌最近即对原来搜索引擎利益有影响还是把AI大模型放到搜索引擎。 2、音箱、摄像头等能够为大模型持续迭代提供交互数据入口的物联网终端(AIoT)战略价值将提升,阿里已经入局,后面我们预期小米等也会加入:我们建议布局AIoT终端的“卖铲人”【科大讯飞】、【中科创达】等,视频摄像头数据入口领域重点关注【海康威视】、大华股份与千方科技; 3、垂直行业有绝佳数据卡位优势的企业,拥有巨头都难以切入的“护城河”:彭博新闻社近期发布了专门为金融领域打造的大型语言模型(LLM)— —BloombergGPT就是垂直数据优势“挑战”巨头通用大模型的案例,A股以【同花顺】为代表的金融信息互联网平台企业同样具备这类优势;【科大讯飞】在教育、医疗与政务司法等重要行业数据卡位优势独步全国;【四维图新】高质量地理数据优势、【深桑达】在央企国资云领域、【浩瀚深度】在运营商领域的数据卡位优势也将进一步凸显。 风险提示:政策落地不及预期,行业竞争加剧。 1本周观点 大模型军备竞赛开启,国内大模型风起云涌。继百度、三六零之后,本周阿里、华为、京东等大模型陆续浮出水面,大模型军备竞赛正式开启。2023年4月7日,阿里云宣布自研大模型“通义千问”开始邀请用户测试体验。现阶段该模型主要定向邀请企业用户进行体验测试;2023年4月8日上午,华为云人工智能领域首席科学家田奇现身《人工智能大模型技术高峰论坛》,分享了华为云盘古大模型的进展及其应用;4月8日召开的人工智能大模型技术高峰论坛上,京东集团副总裁何晓冬表示,针对真实的产业需求,京东将在今年发布新一代产业大模型,言犀是“京东版”ChatGPT,言犀大模型预训练参数达到千亿级,品类覆盖3000+,人工审核通过率95%+、生成文字30亿+。 图1:ChatGPT七朵“金花” 我们根据公开信息不完全统计,目前国内至少已经有30多家大模型亮相,其中不乏参数规模甚至超过ChatGPT规模的大模型,厂商涵盖了互联网巨头、AI上市公司、服务器龙头企业、科研院所与一级市场创业公司。 表1:国内大模型汇总类别 大模型表面不再稀缺后,实质格局更像“太极拳”:易学难精。因为开源基础以及大公司本身的算力储备与资金实力,单纯发布一个大模型门槛没有市场想象那么高,但是能够拥有高质量数据场景助力持续迭代,使得逐步性能逼近ChatGPT的大模型仍是“凤毛麟角”,最终仍然会收敛在少数几个巨头之中。市场会逐步凝结共识:得数据者得天下。数据成为大模型差异化竞争的关键。这带来了三类机会: 1、在A股以三六零为代表这类同时拥有搜索引擎、浏览器与办公插件等高质量通用数据卡位,能够持续迭代提升的大模型公司将愈发显得稀缺,将成为投资聚焦点。 搜索引擎公司天然具备数十年网络爬虫积累的高质量互联网数据资源,而且凭借这一数据卡位战略入口,其数据资源与质量仍将不断迭代提升:当搜索引擎爬虫完成对某个网站或者某个主题下所有相关网站的抽取后,需要对其进行处理和分析。这通常包括以下几个方面:1)数据清洗与去重;2)数据挖掘与分析;3)建立索引以便后续查询。继微软公司已经在其必应(Bing)搜索引擎中部署ChatGPT系统背后的技术后,据《华尔街日报》4月6日报道,谷歌CEO Sundar Pichai透露,谷歌计划在其搜索引擎中添加AI对话功能,目前该公司正在对几种搜索引擎版本进行测试。他表示,此举是为了应对ChatGPT等聊天机器人带来的竞争和商业压力,但聊天机器人不会对谷歌的搜索业务构成威胁,AI的进步反而能进一步增强谷歌的信息检索能力。 高质量的数据资源是推动GPT进化的重要抓手。从GPT-1的1.17亿参数到GPT-2的15亿参数,再到GPT-3划时代的1750亿参数,OpenAI依托筛选过的优质数据形成参数量的阶梯式上升,最终带来GPT-3乃至ChatGPT具备理解上下文、连贯性等诸多先进特征。 在提出GPT-3的论文 《LanguageModelsareFew-ShotLearners》 中 ,OpenAI在收集近一万亿文字(参数)的数据库后,放弃直接使用海量数据训练模型,而是转向通过三种模式筛选优质数据进行训练,从而从万亿参数归纳出众人所熟知的1750亿参数,其核心原因在于“未经过滤或轻度过滤的爬虫数据往往比筛选后数据集质量更低”。 图2:放弃使用万亿数据集的原因 论文中所用的三种筛选数据模式如下: 1)根据与一系列高质量参考语料库的相似度比较,从而过滤出的爬虫数据; 2)通过对数据集内部和跨数据集的文档上执行重复数据的删除; 3)将已知的高质量参考语料库添加到训练组合中,以增强数据集的多样性。 图3:三种筛选数据模式 根据OpenAI的设计,在筛选出的优质数据下,最终训练出的GPT-3成本极其高昂。即使在团队明确发现失误的前提下,依然无法承担二次训练的代价,其本质原因在于优质数据的来源是OpenAI通过大量前期的工作筛选而成。通过梳理,筛选后的数据主要分为:1)过滤后的爬虫数据、2)WebText2的数据集、 3)一号图书馆数据、4)二号图书馆数据、5)英文版的维基百科等五种。而将五类数据映射至国内,我们发现在互联网高歌猛进的建设中,我国天然具备五类数据的优质土壤。 表2:OpenAl的五类数据在国内的类似模式OpenAl筛选后的优质数据类型说明 2、音箱、摄像头等能够为大模型持续迭代提供交互数据入口的物联网终端(AIoT)战略价值将提升 近期天猫精灵。通过音箱端接入阿里大模型,做出了一款阿里版ChatGPT个性化语音助手,标志这一趋势已经开启。这一方向投资机会我们建议布局AIoT终端的“卖铲人”科大讯飞、中科创达等,视频摄像头数据入口领域重点关注海康威视、大华股份与千方科技。 3、垂直行业有绝佳数据卡位优势的企业,拥有巨头都难以切入的“护城河”彭博新闻社近期发布了专门为金融领域打造的大型语言模型(LLM)——BloombergGPT就是垂直数据优势“挑战”巨头通用大模型的案例,A股以同花顺为代表的金融信息互联网平台企业同样具备这类优势。在过去40年里,彭博收集了海量的金融市场数据,拥有广泛的金融数据档案,涵盖一系列的主题。使用该公司数据终端的客户遍布全球,包括交易员、投行、美联储、美国其他官方机构以及全球各大央行等。这些特有数据,使得BloombergGPT比ChatGPT拥有更专业的训练语料。据彭博社发布的报告中可以看出,研究人员利用彭博社现有的数据,对资源进行创建、收集和整理,构建了一个3630亿个标签的数据集,并基于通用和金融业务的场景进行混合模型训练,以支持金融行业内各种各样的自然语言处理(NLP)任务。 科大讯飞在教育、医疗与政务司法等重要行业数据卡位优势独步全国。教育方面,自2004年涉足教育领域以来,科大讯飞就一直以过程化数据支撑教育改革,持续推动人工智能与教育深度融合,目前讯飞智慧教育产品已在全国五万余所学校深度应用,服务过亿师生,积累超过400亿条过程学习数据;医疗方面,截至2022年中报,讯飞全科医生助理已经覆盖全国353个区县,并形成了基于统计数据的规模化应用成果,深度赋能各级医疗机构。在全科医生助理覆盖的区域,累计提供AI辅诊4.4亿次,规范电子病例1.68亿份,识别不合理处方3300万次,经全科医生助理提醒而修正诊断的有价值病例累计超过54万例;在政务司法方面,语音的相关应用已覆盖全国31个省市、2300余家法院、近10000个法庭。 四维图新高质量地理数据优势。华为近期所有终端将全面上线自有地图花瓣地图,华为盘古大模型首个应用签约捷顺科技AI停车已经表明,华为大模型的首选应用场景将集中在地图应用,地图+GPT自然语言一站式交互,将轻松跨越滴滴,大众点评,携程,美团等交互中介功能的app,直达用户需求,成为一切线下业务all in one入口,而华为花瓣地图由四维图新数据与技术支撑,且参与相当比例业务分成。 深桑达在央企国资云领域、浩瀚深度在运营商领域的数据卡位优势也将进一步凸显。深桑达作为中国电子数据创新业务的承载主体,面向地方政府、中央部委、大型集团企业客户,以数据安全与数据要素化工程方案落地为主线,将业务拆分为数据安全工程、数据要素工程和数据产业工程,分别打造核心产品和解决方案,破解客户数据安全合规和数据要素化难题,并助力地方政府培育数据产业。 浩瀚深度是国内少数围绕运营商数据从设备制造到数据采集、从海量数据存储到数据挖掘、从流量经营到大数据服务的专精特新龙头企业。 2下周投资提示 表3:下周重要会议 3行业新闻 中国证券报:国家发改委孙伟表示,我国数字经济取得了举世瞩目的成就,数字基础设施实现了跨越式发展。 中国证券报4月3日消息,国家发展和改革委员会创新和高技术发展司负责人孙伟在会上表示,我国数字经济取得了举世瞩目的成就,数字基础设施实现了跨越式发展,数字产业创新能力加快提升,数字技术与实体经济融合提档加速,公共服务数字化深入推进。 券商中国:ChatGPT的安全问题正引起高度重视! 凤凰网财经4月3日消息,此前,券商中国曾说过,关于人工智能的利空最大的可能来自监管层面。周末,在意大利暂时封杀ChatGPT之后,又有消息传出ChatGPT目前停止注册,开始大面积封号,4月2日全面封亚洲登录账号。 36Kr:亿咖通CEO沈子瑜称想靠魅族系统和芯片能力,从吉利走出去。 36氪4月4日消息,亿咖通董事长、CEO沈子瑜也在接受36氪等媒体采访时直言,过去几年,亿咖通没有花太多精力去做吉利以外的业务,主要是觉得差异性不够,但现在通过生态联盟,亿咖通已经具备了两个核心差异点:一是基于魅族操作系统Flyme打造的Flyme Auto,二是芯片。 36Kr:我国新能源汽车带动多产业快速发展,智能网联等领域迎来新赛道。 36氪4月4日消息,为期三天的2023中国电动汽车百人会论坛昨天(2日)闭幕。与会人士普遍认为,我国新能源汽车产销量持续快速增长,正带动众多相关产业共同发展。今年前两个月,我国新能源汽车产销量继续保持两位数增长,分别完成97.7万辆和93.3万辆。我国新能源汽车产业快速增长,以此为基础形成了智能网联汽车发展的