您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[民生证券]:计算机周报:AI永不眠:数据场景龙头为王 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机周报:AI永不眠:数据场景龙头为王

信息技术2023-04-16吕伟民生证券比***
计算机周报:AI永不眠:数据场景龙头为王

市场回顾 本周(4.10-4.14)沪深300指数下跌0.76%,中小板指数下跌1.73%,创业板指数下跌0.77%,计算机(中信)板块下跌4.48%。板块个股涨幅前五名分别为:信息发展、朗科科技、盛视科技、万兴科技、佳华科技;跌幅前五名分别为:顺利办、光云科技、三六零、中科创达、新开普。 行业要闻 36Kr:蔚来宣布6月起不再赠送免费家充桩和增强领航辅助NOP+将于7月1日正式发布并开启订阅 36kr:上海数据交易所参加香港国际创科展,首提数字资产沪港联动机制国家能源局:加快攻关新型储能关键技术和绿氢制储运用技术 工信部:牵头规划汽车芯片标准化工作,拟到2030年制定超70项相关标 准 公司动态 新炬网络:4月12日消息,公司拟新增“信创数据库云管平台项目”、“数字员工软件机器人项目”,拟投入募集资金金额合计为7,500.00万元。 证通电子:4月12日消息,公司中标中原大数据中心项目机电工程总承包及数据中心运营项目,中标金额为26,316.311万元。 本周观点 2023年4月11日,国家网信办发布了《生成式人工智能服务管理办法(征求意见稿)》,第七条明确提出提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责。实际上奠定了具备合法数据来源与应用场景企业的法律门槛: 1、在A股以【三六零】为代表这类同时拥有搜索引擎、浏览器与办公插件等高质量通用数据卡位的大模型公司将愈发显得稀缺,将成为投资聚焦点; 2、音箱、摄像头等能够为大模型持续迭代提供交互数据入口的物联网终端(AIoT)战略价值将提升,我们建议布局AIoT终端的“卖铲人”【科大讯飞】、【中科创达】等,视频摄像头数据入口领域重点关注【海康威视】、大华股份与千方科技; 3、垂直行业有绝佳数据卡位优势的企业,拥有巨头都难以切入的“护城河”:【同花顺】为代表的金融信息互联网平台垂直数据优势;【科大讯飞】在教育、医疗与政务司法等重要行业数据卡位优势独步全国;【四维图新】高质量地理数据优势、【深桑达】在央企国资云领域、【浩瀚深度】在运营商领域的数据卡位优势也将进一步凸显。 4、“矛有多锐,盾有多厚“,AI时代的数据安全达到空前高度,其受益于人工智能、数据要素与信创“三山叠峦”,具备较高弹性,建议关注:美亚柏科、浩瀚深度、吉大正元、奇安信、电科网安、三未信安、信安世纪、安恒信息、格尔软件和数字认证等。 风险提示:政策落地不及预期,行业竞争加剧。 1本周观点 2023年4月11日,国家网信办发布了《生成式人工智能服务管理办法(征求意见稿)》。在行业发展早期,配套政策的及时落地,有利于长期健康发展。 《管理办法》第七条明确提出提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责,实际上奠定了具备合法数据来源与应用场景企业的法律门槛。根据中伦律所,有关预训练数据和优化训练数据的合规要求实际已经在算法备案流程中以自评估报告的形式提出,由算法备案主体作出答复即可。而《办法》以专条的形式明确提供者需要对训练数据来源的合法性负责,或许意味着未来有关部门对训练数据来源合法合规性的监管将更加严格和主动。 此外,就数据的客观性、多样性而言,亦是从源头防止算法歧视、信息茧房等算法合规问题的内在要求 表1:《生成式人工智能服务管理办法(征求意见稿)》内容摘要 在数据强监管的背景下,拥有数据场景的公司有望凭借高质量数据持续迭代,进一步拉开与竞争对手的AI能力差距,主要有以下三类机会: 1、在A股以三六零为代表这类同时拥有搜索引擎、浏览器与办公插件等高质量通用数据卡位,能够持续迭代提升的大模型公司将愈发显得稀缺,将成为投资聚焦点。 搜索引擎公司天然具备数十年网络爬虫积累的高质量互联网数据资源,而且凭借这一数据卡位战略入口,其数据资源与质量仍将不断迭代提升:当搜索引擎爬虫完成对某个网站或者某个主题下所有相关网站的抽取后,需要对其进行处理和分析。这通常包括以下几个方面:1)数据清洗与去重;2)数据挖掘与分析;3)建立索引以便后续查询。继微软公司已经在其必应(Bing)搜索引擎中部署ChatGPT系统背后的技术后,据《华尔街日报》4月6日报道,谷歌CEO Sundar Pichai透露,谷歌计划在其搜索引擎中添加AI对话功能,目前该公司正在对几种搜索引擎版本进行测试。他表示,此举是为了应对ChatGPT等聊天机器人带来的竞争和商业压力,但聊天机器人不会对谷歌的搜索业务构成威胁,AI的进步反而能进一步增强谷歌的信息检索能力。 高质量的数据资源是推动GPT进化的重要抓手。从GPT-1的1.17亿参数到GPT-2的15亿参数,再到GPT-3划时代的1750亿参数,OpenAI依托筛选过的优质数据形成参数量的阶梯式上升,最终带来GPT-3乃至ChatGPT具备理解上下文、连贯性等诸多先进特征涌现。 在提出GPT-3的论文 《LanguageModelsareFew-ShotLearners》 中 ,OpenAI通过三种模式筛选优质数据进行训练,其核心原因在于“未经过滤或轻度过滤的爬虫数据往往比筛选后数据集质量更低”。 图1:数据质量的影响 论文中所用的三种筛选数据模式如下: 1)根据与一系列高质量参考语料库的相似度比较,从而过滤出的爬虫数据; 2)通过对数据集内部和跨数据集的文档上执行重复数据的删除; 3)将已知的高质量参考语料库添加到训练组合中,以增强数据集的多样性。 图2:三种筛选数据模式 根据OpenAI的设计,在筛选出的优质数据下,最终训练出的GPT-3成本极其高昂。即使在团队明确发现失误的前提下,依然无法承担二次训练的代价,其本质原因在于优质数据的来源是OpenAI通过大量前期的工作筛选而成。通过梳理,筛选后的数据主要分为:1)过滤后的爬虫数据、2)WebText2的数据集、 3)一号图书馆数据、4)二号图书馆数据、5)英文版的维基百科等五种。而将五类数据映射至国内,互联网巨头尤其是搜索引擎公司天然具备数据优势。 表2:OpenAl的五类数据在国内的类似模式OpenAl筛选后的优质数据类型说明 2、垂直行业有绝佳数据卡位优势的企业,拥有巨头都难以切入的“护城河”同花顺在金融数据终端连续多年以20%以上研发费率进行AI领域的投入,目前产品体系涵盖i问财对话机器人、AI开放平台等,并打造拥有海量金融数据的生态体系,落地拥有超3000万月活,C端软件+ifind+爱基金三大场景。i问财是同花顺旗下的专业智能投研、投顾服务平台,是财经领域落地成功的自然语言、语音问答系统。i问财投研平台提供了多维度的股票、基金、债券数据,投资者输入自然语言问句就能搜索想要的数据和信息。此外还有条件选股、研报图表、精选策略、产品搜索、短线复盘、策略回测、宏观经济等功能,旨在通过人工智能、大数据分析技术帮助用户精准分析,提高股票诊选能力。 图3:同花顺i问财 图4:同花顺爱基金 图5:同花顺ifind 科大讯飞在教育、医疗与政务司法等行业均通过数十年的深耕形成自身数据卡位,并构建G-B-C三端的数据闭环。教育方面,自2004年涉足教育领域以来,科大讯飞就一直以过程化数据支撑教育改革,持续推动人工智能与教育深度融合,目前讯飞智慧教育产品如学习机、个性学习手册等已在全国五万余所学校深度应用,服务过亿师生,积累超过400亿条过程学习数据;医疗方面,截至2022年中报,讯飞全科医生助理已经覆盖全国353个区县,并形成了基于统计数据的规模化应用成果,深度赋能各级医疗机构。在全科医生助理覆盖的区域,累计提供AI辅诊4.4亿次,规范电子病例1.68亿份,识别不合理处方3300万次,经全科医生助理提醒而修正诊断的有价值病例累计超过54万例;在政务司法方面,语音的相关应用已覆盖全国31个省市、2300余家法院、近10000个法庭。 图6:AI业务全景图 四维图新高质量地理数据优势。华为近期所有终端将全面上线自有地图花瓣地图,华为盘古大模型首个应用签约捷顺科技AI停车已经表明,华为大模型的首选应用场景将集中在地图应用,地图+GPT自然语言一站式交互,将轻松跨越滴滴,大众点评,携程,美团等交互中介功能的app,直达用户需求,成为一切线下业务all in one入口,而华为花瓣地图由四维图新数据与技术支撑,且参与相当比例业务分成。 深桑达在央企国资云领域、浩瀚深度在运营商领域的数据卡位优势也将进一步凸显。深桑达作为中国电子数据创新业务的承载主体,面向地方政府、中央部委、大型集团企业客户,以数据安全与数据要素化工程方案落地为主线,将业务拆分为数据安全工程、数据要素工程和数据产业工程,分别打造核心产品和解决方案,破解客户数据安全合规和数据要素化难题,并助力地方政府培育数据产业。 浩瀚深度是国内少数围绕运营商数据从设备制造到数据采集、从海量数据存储到数据挖掘、从流量经营到大数据服务的专精特新龙头企业。 3、音箱、摄像头等能够为大模型持续迭代提供交互数据入口的物联网终端(AIoT)战略价值将提升 天猫精灵通过音箱端接入阿里大模型,做出了一款阿里版ChatGPT个性化语音助手,标志这一趋势已经开启。 Meta AI在官网发布了基础模型Segment Anything Model(SAM)并开源。其本质是用GPT的方式(基于Transform模型架构)让计算机具备理解了图像里面的一个个“对象”的通用能力,从而不像过去需要大量专门数据训练,就能具备对所有图片分割出各个主体。 SAM本质大幅降低了图像识别的技术门槛,一是不再需要此前需要大量数据标注训练的门槛,二是开源后使得没有计算机视觉技术积累的公司也能轻易拥有最强大最通用的图像数据结构化理解能力,是计算机视觉领域的AI平权,SAM使得视频/图像数据价值量跃升,拥有视频/图像数据及相关获取渠道卡位的公司将迎来价值重构。 SAM模型可能不仅仅是计算机视觉领域的GPT3时刻,它的开源更可能是AR/VR领域的安卓时刻。XR在SAM的赋能下具备了通过图像理解现实的能力,无论是“增强现实”还是“虚拟现实”,在内容制作成本上会大幅降低,在使用场景上会大幅增加。SAM的出现,无异于为XR行业安装了一台核动力引擎。这一方向投资机会我们建议布局AIoT终端的“卖铲人”科大讯飞、中科创达等,视频摄像头数据入口领域重点关注海康威视、大华股份与千方科技。 4、“矛有多锐,盾有多厚“,AI时代的数据安全达到空前高度 《生成式人工智能服务管理办法(征求意见稿)》在第一条就明确了其上位法为数据安全领域的三大法规——《网络安全法》《数据安全法》以及《个人信息保护法》。在此框架下,本《办法》将与此前网信办发布的两部算法管理规定(《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》)以及科技部《科技伦理审查办法(试行)》(征求意见稿),共同构成了人工智能行业的主要合规法律依据和监管抓手,人工智能时代数据安全空前重要。 4月14日,李强总理主持召开国务院常务会议审议通过《商用密码管理条例(修订草案》》。会议指出,近年来,商用密码应用愈发广泛,在保障网络和信息安全、维护公民和法人权益方面的重要性日益凸显。要全面贯彻总体国家安全观,进一步规范商用密码应用和管理,督促平台企业依法履行用户密码保护责任,确保个人隐私、商业秘密和政府敏感数据的安全,要更好顺应数字经济快速发展趋势,建立健全商用密码科技创新促进机制,推动商用密码科技成果转化和产业化应用,促进商用密码市场持续健康发展。 在密码从小众走向标配的路径中,数据安全产业链受益于人工智能、数据要素与信创“三山叠峦”,具备较高弹性。坚定看好整体板块性投资机遇,建议关注:美亚柏科、浩瀚深度、吉大正元、奇安信、电科网安、三未信安、信安世纪、安恒信息、格尔软件和数字认证等。 2下周投资提示 表3:下周重要会议 3行业新闻 乘联会:3月新能源车国内零售渗透率34.2%,较去年同期28.1%的渗透率提升6个百分点。 乘联会4月10日消息,3月新能源车国