您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:久谦中台ChatGPT纪要分享–20230215 - 发现报告
当前位置:首页/会议纪要/报告详情/

久谦中台ChatGPT纪要分享–20230215

2023-02-15未知机构劫***
久谦中台ChatGPT纪要分享–20230215

久谦 保密 ChatGPT 纪要分享 久谦中台二三年二月 本纪要仅基于本所迄今为止可获得的信息编写。未经久谦咨询事先书面同意,任何其他人士或实体不得使用本纪要,本纪要亦不能用于任何其他目的。 即使在经久谦咨询同意的情况下向任何其他人士或实体披露了本纪要,久谦咨询不会就本纪要的内容对该等其他人士和实体承担任何责任。 久谦 观点总结 1ChatGPT是社会发展的必然结果,2030年数字化劳动力市场规模可达1.73万亿元 aChatGPT催生路径=社会问题+技术迭代 i2008年全球金融危机->云计算产业->人工智能 ii2020年全球疫情->经济压力->企业降本增效->加快数字劳动力发展(文字工作者、方案策划师、程序员等)->NLP技术赋能 bChatGPT技术路径=Transformer结构->1,750亿参数+巨大算力+单一模型+ 文字问答 i冷启动监督策略模型:Transformer->GPT->GPT2->GPT3->ChatGPT ii训练回报模型:机器学习->人类训练师+人工智能助手->结果以质量排序 iii使用强化学习策略:随机指令+初始化PPO模型参数->更新模型 2中短期内ChatGPT对产业生态不会带来实质性的颠覆,产业链参与者仍有机会 a技术痛点:新数据不友好+预训练模型(数据集积累仅截至2021年) i新数据:未能建立和实时信息的连接 ii预训练模型:如何保持实时更新 iii产品体验:未达到理想状态(未必能超越垂直类产品) b商业痛点:不开源+商业模式不清晰+运营成本高 iToC->ToB(微软->应用在Office中) ii潜在广告收入少->短期内无法替代搜索引擎=俱进且并存 iii开发成本+企业使用成本 3国内企业的入场机会和发展现状 a大厂:百度->字节->腾讯->阿里->自研趋势 i百度(文心一言->ERNIEBot):自主研发平台+文心大模型+预训练大模型积累=ToB(付费意愿稳定)+ToC产品 ii字节:AIGC(短视频+图文)->数据+算法=语言处理模型 iii阿里:AIGC(营销) iv腾讯:AIGC(广告+社交+游戏) b小厂:入局机会小,可作为大厂客户接入 i技术积累薄弱+数据训练基础及经验不足+数据库及人力资源受限 ii布局大厂下游ToB应用端产品(需等待大厂开放B端应用接入) c阻力:技术+硬件+政策 i中美ChatGPT发展仍存差距:模型+规模->训练程度->回答的逻辑性+ 完整度->API调用->企业生态 ii芯片:算力瓶颈 iii监管政策:国内引入ChatGPT政策尚未完善+规章制度尚未建立 4产业链机会及相关标的 a上游数据处理+下游智能应用 i数据标注+算力+数据清洗+数据采集 ii智能客服+聊天机器人 b计算机:算法+算力+数据 i算法:科大讯飞、拓尔思(NLP)、海康威视(图像识别)、云从科技(图像识别)、格林深瞳(图像识别) ii算力:海光信息(DCU)、寒武纪(AI芯片)、景嘉微(GPU) iii数据:天瑞声 c传媒:平台+光模块+运营商 i平台:中文在线、视觉中国、昆仑万维 ii光模块:中际旭创(800G光模块龙头+最早放量+最高份额和订单+股权激励+估值水平较低) iii中国移动 5ChatGPT未来迭代和产业辐射 a基础=纯粹创新精神+长期主义:创新型+投入+决心+顶尖人才储备 b支点=算力+GPU+商业模式 i大算力+大模型 ii芯片:国产化替代 iii知识定制化:特定领域数据(医疗、司法) iv产业厂商合作:大公司->训练大模型+小公司->数据收集->商业化 v产业辐射:数据(收集+处理+清洗)、智能对话(客服、机器人)、创作 (素材收集+写作)、虚拟现实、教育 目录 OpenAI高管解密ChatGPT5 国产ChatGPT何时问世?15 ChatGPT中美差距究竟有多大20 如何理解ChatGPT的强势出圈和国内发展22 全面解读ChatGPT产业链机会27 ChatGPT来龙去脉33 ChatGPT学习笔记35 2023电子产业展望41 AIGC路演纪要45 AI或是新年预期差最大的计算机投资主线47 全球科技创新核心AI发展49 OpenAI嵌入微软Office与Bing,智能化向C端开始渗透54 从ChatGPT热议看大模型潜力56 AI产业链研究之ChatGPT下游应用和场景商业化广阔60 ChatGPT与人形机器人共舞63 微软新版Bing搜索引擎发布会67 从美国科技巨头财报看AI的发展和应用71 从北美云厂商的AI规划看光通信的结构创新77 从微软和OpenAI的合作来梳理AI投资逻辑79 微软公司业绩交流82 微软公司各业务线情况85 微软FY2023Q2业绩会90 平治信息公司走访93 云从科技走访95 科大讯飞表现分析98 科大讯飞22年度业绩预告说明会102 科大讯飞访谈交流107 拓尔思访谈交流109 拓尔思ChatGPT市场化展望114 拓尔思ChatGPT相关122 科大讯飞投资价值研究分析与行业前景127 ChatGPT与商汤电话会131 OpenAI高管解密ChatGPT 访谈日期:2023/2/8具体内容 ¶GPT-3是一种大型语言模型,被训练用来在给定上下文中预测下一个单词,使用Transformer架构 1它很灵活,可以用于翻译、摘要、分类和问答等任务。GPT-3的优势在于它的简单性和不需要专门训练数据集就能表现良好的能力 2GPT-3可以用于翻译任务,方法是提供比如“德语:英语”对的翻译样例(如果是德英翻译),或者像问人一样要求模型翻译给定的句子 3尽管GPT-3主要是在英语数据上训练的,但仍然能够在翻译任务中表现良好,因为它能够通过提供的样例中的模式,并利用自己的一般语言能力产生翻译 aGPT-3也可以用于摘要和问答等任务。GPT-3在商业应用中也取得了成功,如文本生成和问答。它明显比早期版本的GPT(规模)更大、(功能)更强大,训练的数据也更多 b它被用来生成创意写作任务的起点或变体,如产品描述,并已与OpenAIAPI集成,使开发人员更容易使用 cAPI允许用户对GPT-3进行特定任务的微调,包括设置学习率和数据的过渡次数,以及选择模型大小 4PeterWelinder现任OpenAI产品与合作伙伴副总裁,负责GPT-3的运行和其他业务,在此之前,他曾是OpenAI的研发主管。使用GPT-3解决现实世界的问题 ¶Peter,上次我们谈话时,我记得你在OpenAI做研究,但现在我们发现你是OpenAI的产品和合作伙伴关系副总裁,我很好奇这意味着什么?你每天都在做什么? 1我今天所做的与我做研究时完全不同,对我来说,做研究一直都是为了解决最困难的问题,以便真正对世界产生某种影响。我个人更倾向于研究的最终目标,而不是研究本身,做研究真的很有趣,你知道,深入研究,探索事物,最后总是有一个目标 2GPT-3发生了一件令人兴奋的事情……当我开始在OpenAI工作时,我做的很多事情都是机器人方面的。对于机器人技术来说,你在实验室里能做的事情和你在现实世界里能做的事情之间还有一些差距。使用GPT-3,当我们在GPT-3中得到第一个结果时,很明显我们有一些东西可以开始应用于现实世界的问题,而不仅仅是做酷炫的演示 a当我从事机器人工作时,我们最后得到的是一个非常酷的机器人手解魔方的演示,但每个人的家里并不具备部署它的条件 b即使它足够强大,我也不知道它对解决魔方有多大用处,这是一种非常昂贵的方法。但是有了GPT-3,我们有了一个语言模型,你现在可以应用它来解决各种不同的问题,从翻译到总结,再到分类和问答等应有尽有,这是一个非常灵 活的模式 c所以,我们要做的就是看看这个模型来解决现实世界的问题是否足够好,对我来说,这是一个非常有趣的领域 3当你拥有这项非常强大的新技术,有可能改变很多事物的工作方式时,这一切都是为了找到合适的方法来解决问题,看看你如何利用你工具箱里的工具来解决这些问题。不同的是,作为研究人员,我所做的是提出正确的基础和正确的方法来衡量进展。当目标非常遥远时,你需要想出这些玩具的方法来评估进展 a现在,就像客户告诉我们“嘿,我正在尝试将GPT-3应用到这个用例中”,但它不起作用或太慢等诸如此类的事情,这些问题要具体得多 b我的日常,现在更多的是建立一个团队,用我们在OpenAI开发的技术来解决这些现实问题 ¶当你将GPT-3与其他用于大型语言模型的方法进行比较时,这似乎是一种趋势。你是否注意到它在工作方式上有哪些关键差异,采取某种方式是否有所不同? 1这是一个很好问题,我认为我真正喜欢GPT-3的地方,以及我认为它与众不同的主要方式是GPT-3所做的一切都非常简单 2GPT-3是一个大型语言模型,大型神经网络。它使用的是谷歌几年前推出的一种非常流行的Transformer架构,如今,它基本上为所有不同的语言模型提供了支持,而且它也开始进入其他领域,比如计算机视觉等 3GPT-3的设置非常简单,它可以有一些上下文,你可以看看文本的历史。如果你正在读一本书,你可以看一页或一段文字,然后它试着预测下一个单词,这就是GPT-3的训练方式。它只是训练了来自不同来源的大量文本,大部分来自互联网。它只是一遍又一遍地训练,根据它看到的一些单词,预测下一个单词 4你可以从几个单词开始,但当我们今天训练这些模型时,我们训练它们的数量级是一千或几千个单词,你可以回顾这1,000个单词,然后试着预测下一个单词。所以设置非常简单,你只需要在这些庞大的文本数据集上训练它,以便继续预测下一个单词,并在这方面做得非常好 a我认为GPT-3的令人惊讶之处在于,如果你这样做,然后你把模型变得非常大,这让它有巨大的学习能力,然后它就会非常擅长以前你需要专门模型的一系列任务 b以前如果你想进行翻译,你就需要一种专门翻译的神经网络,或者如果你想做总结,同样,你会以特定的方式设置你的网络,然后只训练它完成总结任务 c我们在使用GPT-3中发现,你实际上在一些基准测试中获得了非常接近最先进的表现,这些基准测试包括总结、翻译、问题回答等等 d该模型使用的是一个刚刚在互联网上训练过的模型,它不专门执行任何任务,而是能够以与阅读文本相似的方式再现文本。将GPT-3应用于翻译任务 ¶实际上,如何将其应用到翻译任务中,你如何把“预测下一个单词”变成一个翻译? 1在很多其他的大型语言模型中,都有一些特定的步骤,你可以对一段文本进行编码。所以你会在神经网络中创建一些表示 2然后你会有一个解码器来接受它,然后用它来写一些句子。例如:如果你做翻译,你会把它编码成某种表示,然后你的神经网络会有一个单独的部分来接受这种表示,并尝试输出你想要的东西,输入可能是一个德语的句子,输出的可能是一个英语的句子,而且,你知道它是专门为此训练的 a那么对于你的问题,你如何处理GPT-3呢?最简单的方法是:你可以提供一些例子,说明翻译可能的样子,仅以纯文本形式,你会写“德语:”和一些德语句子,然后是“英语:”和一些英语句子 b你可能只提供一个例子,那么这个称为一下(one-shot),你可以提供一些例子,基本上都是“德语或者英语”的一些例子,然后你可以输入你想翻译的新句子,这就是所谓的多下(Few-Shot)训练 3如果你有几个例子和模型,只要看看它现在在其上下文中看到的模式,它可以产生一个翻译。这是一个非常简单的设置。基本上,我认为告诉GPT该做什么的方式有点像你告诉人类做同样的事情。比如,如果我给你写电子邮件,“嘿,Lukas,我想让你翻译一些句子” a我会告诉你:“请翻译这些句子”,我可能会提供一些例子来让你了解一下它的语气,比如:我想要更正式的翻译,还是更随意的翻译等等,你会发现其中的规律,给你一个德语句子(我不知道你懂不懂德语)你就能把它翻译成英语 b现在有了我们最新的模型,你甚至不需要提供这些例子,你可以像问人一样问模型,比如,“嘿,把这个句子翻译给我听”,或者“总结一下这篇文章” c我们刚刚发现,这就是人们想要使用模型的方式。我们让他们做了更多这样的工作,