市场回顾 本周(01.03-01.06),沪深300指数上涨2.82%,中小板指数上涨2.30%,创业板指数上涨3.21%,计算机(中信)板块上涨5.77%。板块个股涨幅前五名分别为:中远海科、易华录、金溢科技、创意信息、*ST实达;跌幅前五名分别为:立思辰、紫晶存储、捷顺科技、安硕信息、万达信息。 行业要闻 中国信通院:2022年11月国内市场手机出货量2323.8万部,同比下降34.1%,5G手机出货量1.91亿部,同比下降20.2% 中国信通院:发布《大数据白皮书(2022)》报告,2021年我国大数据产业规模增加到1.3万亿元 百度:即将发布全球首个独立元宇宙解决方案希壤元宇宙底座MetaStack公司动态 龙软科技:公司中标神东矿区智能化煤矿建设关键技术研究与示范工程课题3子课题神东矿区透明地质保障系统建设项目,金额为5018.7万元 南威软件:公司及下属子公司共收到了国家知识产权局颁发的7项发明专利证书,专利名称为一种地图页面的打印方法及系统 三维天地:公司首次公开发行人民币普通股(A股)19,350,000.00股,并于2022年1月7日起在深圳证券交易所创业板上市交易 银江技术:1月4日消息,公司向特定对象发行股票的申请于2022年12月28日获得深圳证券交易所上市审核中心审核通过 鸥玛软件:1月6日消息,公司中标国家认证人员注册全国统一考试项目,中标总金额2670.00万元 本周观点 根据华尔街日报1月6日报道,爆红的聊天机器人ChatGPT背后的研究实验室OpenAI正在谈判以收购要约的形式出售现有股份,交易对该公司的估值达到290亿美元左右,使其在没有什么收入的情况下成为账面上最值钱的美国初创公司之一,成为AI时代资本定价的标杆事件。ChatGPT作为生成式AI,不仅能够免去用户检索过程直接给用户提供答案,还能够凭借强大的语言组织能力为用户带来深度交互体验,某些领域搜索评价甚至超过谷歌,或具备颠覆搜索引擎市场的潜力,打开了AI商业化的空间,建议投资者关注科大讯飞、拓尔思等NLP技术深度布局企业。 风险提示: 核心技术研发不及预期;技术市场化不及预期;行业竞争加剧 1ChatGPT的前生今世 根据华尔街日报1月6报道,爆红的聊天机器人ChatGPT背后的研究实验室OpenAI正在谈判以收购要约的形式出售现有股份,交易对该公司的估值达到290亿美元左右,使其在没有什么收入的情况下成为账面上最值钱的美国初创公司之一,成为AI时代资本定价的标杆事件。 1.1ChatGPT在类人助手的道路上开拓全新模式 根据艾瑞咨询,仅对话式AI在2026年市场规模即突破百亿,并带动约三到四倍相关产业规模。而ChatGPT的加速迭代推动世界劳动力向数字化转变,在“基于人类反馈的强化学习”的模式下,证明千亿规模模型训练+人类反馈可以融合世界的知识和规则,极大提升模型表现,取得接近人的水准。 而在企业端与政府端对对话服务资源的需求将持续增加的趋势下,政府端在全国各地继续推进服务热线归并工作,和新冠疫情常态化下固化了“智能通知”“智能核查”等对话式AI产品防疫需求;企业端在流量红利天花板、竞争态势日益激烈的行业背景下,企业纷纷加强对客服、营销等服务资源部门的投入,持续深化服务领域的智能洞察以优化用户服务体验。G+B双端的需求持续催化下,延伸出以信息查询类、专家咨询类、助手类、交流类为主的四大对话式应用场景: 1)信息查询类:数字化劳动力替代枯燥重复性劳动; 2)专家咨询类:数字化劳动力扩充资源稀缺劳动力; 3)助手类:数字化劳动力协助人类完成相应任务; 4)交流类:数字化劳动力满足人类情感交流的需求。 图1:中国对话式AI产品及相关产业规模 ChatGPT是OpenAI开发的一种大型预训练语言模型,基于Transformer架构,在对话中生成类似人类的文本响应。ChatGPT可以通过从数百万个网站收集信息,以对话式、人性化的方式生成独特的答案,为用户提供写论文、写代码、设计商业策划、担任人们的治疗师等一系列服务。它代表了OpenAI最新一代的大型语言模型,在设计上非常注重交互性。 图2:ChatGPT回复代码问题 图3:ChatGPT写短文 ChatGPT的工作原理是使用人类反馈强化学习(RLHF)的训练方法,以最小化无益、失真或偏见的输出。该方法总体上包括三个步骤: 1)有监督的调优:预训练的语言模型在少量已标注的数据上进行调优,以学习从给定的prompt列表生成输出的有监督的策略(Supervised Fine-Tuning,SFT); 2)模拟人类偏好:标注者们对相对大量的SFT模型输出进行投票,创建一个由比较数据组成的新数据集,在此数据集上训练新模型,被称为训练回报模型(Reward Model,RM); 3)近端策略优化(Proximal Policy Optimization, PPO):RM模型用于进一步调优和改进SFT模型,PPO输出结果是策略模式。 图4:ChatGPT的RLHF训练方法 1.2ChatGPT:从0到1的征程 ChatGPT是从GPT3.5系列中的模型进行微调而诞生,此前OpenAI还设计了GPT-1、GPT-2和GPT-3模型。 1)GPT-1:无监督学习 2018年6月,GPT-1诞生。GPT-1使用预训练+微调两阶段模型完成下游自然语言处理(NLP)任务;使用BooksCorpus数据集;处理的有监督任务包括自然语言推理、问答和常识推理、语义相似度以及分类。但GPT-1存在数据局限性和泛化性不足的问题。 2)GPT-2:多任务学习 2019年2月,GPT-2发布,在GPT-1的基础上使用了更多的网络参数与更大的数据集:参数量达15亿,数据量达40GB;旨在使用相同的无监督模型学习多个任务;文章取自于Reddit上高赞的文章,命名为WebText;在生成方面第一次表现出强大的天赋——阅读摘要、聊天、续写、编故事,网上角色扮演等。 但是很多实验表明,GPT-2的无监督学习的能力还有很大的提升空间。 3)GPT-3:海量参数 2020年5月,GPT-3面世,基于一个更加复杂全面的数据集进行训练,使用45TB的训练数据和175B的参数量;不使用样本(Zero-shot)、使用1条样本(One-shot)或使用极少量的样本(Few-shot)完成下游NLP任务;数据集包括Common Crawl,WebText2,Books1,Books2和Wikipedia;几乎可以完成问题搜索、阅读理解、语义推断、机器翻译、文章生成、自动问答等功能。但是GTP-3并不完美,它有时在自然语言推断、填空、阅读理解任务等方面表现得不太好;复杂和昂贵的模型推理受限;训练的语言可能存在性别、民族、种族或宗教偏见。 4)ChatGPT:人工标注数据+强化学习 2022年11月,ChatGPT发布。ChatGPT是在GPT 3.5系列模型的基础上,引入「人工标注数据+强化学习」的RLHF模型,不断微调预训练语言模型,旨在让大型语言模型(LLM)学会理解人类的命令,并根据给定的prompt给出最优的答案。ChatGPT专为会话任务设计,实现了在与人类互动时从反馈中强化学习。ChatGPT在语言识别、判断和交互层面存在巨大优势,依托大量文本数据,具有类似人类的反应和情境感知。OpenAI官网明确提示,ChatGPT准确性不足,偶尔会一本正经地胡说八道。 从GPT-1到ChatGPT的纵向演变,可以看到OpenAI不断朝着自然语言理解这一目标前进,用更大的模型、更先进的架构,为实现通用人工智能开辟路径。 表1:GPT系列产品升级情况每代GPT时间 1.3人工智能ChatGPT走红出圈 OpenAI发布ChatGPT后短短5天时间,就收获了超过100万用户粉丝,一时间再次引爆国内外对AI替代人工的热烈讨论。目前,ChatGPT处于测试阶段,而且支持中文。开放试用后,大量用户尝试与ChatGPT对话,从闲聊、回答日常问题,到生成诗歌、小说、视频脚本,以及编写和调试代码,ChatGPT展示了其令人惊叹的“才华”。 ChatGPT能够快速走红是因它能够给出优质的答案、提供高效获取信息的方式,而强大的语言组织能力,也为用户带来了超出预期的交互体验。ChatGPT具有自然语言理解能力和较强的学习能力,能识别用户输入的意图自动生成回复,并根据用户的输入不断学习,以便在下次对话时更加精准地回复。ChatGPT令人惊喜的另一个表现在于能够进行文学创作,给其设定一个话题,可以写出小说框架。普通的文本创作只是最基本的,ChatGPT还能给程序员的代码Bug,针对技术问题提供详细的解决方案,同时ChatGPT与搜索引擎结合,能够提高用户搜索体验。严谨的对答逻辑,丰富的信息量,甚至和人类相差无几的情绪感知与传递能力。 1.4有望颠覆谷歌搜索引擎的伟大商业价值 1.4.1ChatGPT有望颠覆谷歌等传统搜索引擎 ChatGPT是生成式AI,一次性找到问题答案更符合当前用户使用习惯。据Geekydude和Geekpark,传统搜索引擎如谷歌旨在通过搜索数十亿个网页并根据相关性和权威性对结果进行排名,帮助用户在网络上找到特定信息;ChatGPT则是通过GPT-3语言模型来生成对对话中用户输入的响应,不仅提供搜索结果列表,还可以直接给出答案,包括撰写文章、编写/改正代码等行为。ChatGPT这类生成式AI能够免去用户对搜索结果的手动整理和选择过程,直接为用户提供答案; 生成式AI最大的挑战是准确度,而根据decoder数据,ChatGPT在搜索评价上已经领先谷歌,在特定场景如代码搜索大幅领先谷歌。 图5:ChatGPT与谷歌搜索总体评价 图6:ChatGPT与谷歌搜索代码总体评价 微软预计2023年3月底将ChatGPT集成入Bing搜索引擎,谷歌搜索引擎市场份额受到挑战。据SEJ,微软计划将ChatGPT集成入Bing搜索引擎,使Bing能够用完整的句子回答搜索查询,而不是提供链接列表,该功能最早将于2023年3月底推出。据statcounter,2022-2023年,谷歌搜索引擎市场占比为92.08%,Bing排名第二仅为3.19%,考虑到微软与ChatGPT母公司OpenAI已有对话式编程工具Copilot的成果合作案例,将Bing集成ChatGPT预期进展顺利,Bing市场份额提升机会较大。谷歌当前已经开启“内部红色警戒”,围绕ChatGPT全面调整明年在AI领域的工作,足见ChatGPT类生成式AI对搜索引擎市场的颠覆程度。 图7:2022-2023年全球搜索引擎市场份额 图8:对话式编程工具Copilot 1.4.2ChatGPT有望助力AIGC破圈 随着ChatGPT的走红,大家AI的认知上升到了新高度,也令整个市场重新评估AIGC赛道预期。AIGC被认为是继PGC、UGC之后的新型内容创作方式,可以在创意、表现力、迭代、传播、个性化等方面,充分发挥技术优势,目前已经可以自动生成文字、图片、音频、视频,甚至3D模型和代码。对自然语言的理解是AIGC发展的一个首要的关键环节。ChatGPT实际就是基于自然语言的交互式聊天,用户上手成本很低。同时,ChatGPT引入了一个新的训练方法RLHF,即在大数据预训练下加强了人类反馈,使其生成内容的范围、有效性、准确度上有了大幅提升。 ChatGPT作为AIGC的重要应用,其出现对于文字/语音模态的AIGC应用具有重要意义。随着深度学习模型不断完善、开源模式的推动、大模型探索商业化的可能,AIGC有望加速发展,成为多产业智能发展新引擎。业内人士表示,ChatGPT模型的出现对于文字模态的AIGC应用具有重要意义,相关受益应用来看,包括但不限于代码机器人、小说衍生器、对话类搜索引擎、语伴、语音工作助手、对话虚拟人等。 经过前几年的技术积累,如今AIGC已经走到了快速发展的临界点。Cha