您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[OpenAI]:2023学习笔记和趋势 - 发现报告
当前位置:首页/其他报告/报告详情/

2023学习笔记和趋势

2023-01-30-OpenAIJ***
2023学习笔记和趋势

爆红出圈的AI聊天机器人chatGBT背后的研究实验室OpenAI,正在以收购邀约的形式出售现有股份,估值高达290亿美元,在没有收入和利润的情况下,成为最值钱的美国出场公司之一。我们认为这一个事件可能是AI时代资本定价的一个标杆事件,商业价值已经获得了全球资本的高度认可。 Q:拓尔思公司发展的背景和场景应用? A:公司曾于1993年成立是全球的中文检索的创始者,公司成立之初,主要的技术方 向围绕着中文全文检索,第一批用户主要是媒体用户。1997年获得过国家科技进步二等奖,电子部科技进步一等奖。2000年到2011年阶段,公司核心技术是基于检索技术,开发智能内容的管理。2007年我们启动了核高机的非结构化数据系统的研究专项。 拓尔思是作为第一家大数据公司上市A股,公司持续在自然语言处理技术上做研究。语音智能是公司的核心技术的发展场景。NLP自然语言处理的技术在各个场景中的应用上,我们不断进行深入的拓展。治安语言处理在整个搜索引擎、智能客服,舆情分析还有内容处理方面。通过持续的打造,形成了我们每个板块深度应用场景,同时打造了一批属于公司专属的软件平台,这一块是我们业务收入的增长,基于我们对各个场景应用的熟悉,为用户输出了大量的、有时效的应用效果。 拓尔思公司所有的人工智能应用来自于公司对各种算法模型的积累。在A股市场横向比较,在诸多的公司里,我们真正掌握了大量数据资产。2000多台服务器分布在全国的三个数据中心,每天日增1亿条的开源的互联网的数据,公司已经积累了将近1300亿条的开源的数据资产。因为有了数据资产,我们才能做各种各样的训练模型,才能够积累算法。 公司已经积累了300种以上的算法,并且对每个场景,如知识图谱的展现、知识库的建立档案、包括前期数据采集、数据的标引,关于数据要素的环节,我们都有自己以完全知识产权的软件平台。搜索引擎是公司自然语言处理的核心应用技术,公司30 年以来坚持这方面的积累。在全国大量企业级的搜索都在用ELSG的设计spark开源软件的时候,公司完全做到了自主可控,应用到政府、金融,包括媒体等诸多行业。公司数字经济研究院目前主要研究方向是人机对话,公司近几年在智能问答,围绕着像中国中医科学院的中医中文问答,中国标准化研究院的国家标准的问答,人民卫星出版社的小a机器人,时代经济出版社的审计问答、吉林政务的小机智能机器人等。除此之外,公司围绕着知识图谱事件分析,包括机器人自动写作、智能内容创作,我们都有多个成功的案例。 公司研究人员对于整个OpenAI过去、现在和未来进研究。结合公司的技术沉淀的事实和对场景应用研究,未来的展望,我们做了系统的梳理。ChatGPT引领了数字劳动力时代,它将是生产力的第五次革命,在新的一经济时代,用工模式将会快速演变。目前人员用工模式有全职员工、外包员工、兼职员工三大传统的用工模式。现在出现了第四种用工模式,即数字化的劳动力,打破了人与机器的边界,依托人工智能技 术,包括NLP相关技术,自主完成或者协助人类完成各种工作,比如前端对客或者员工文案的工作等。或者中后台运营协同的等工作。在传统劳动力跟数字劳动力的结合下,通过NLP技术赋能,让传统劳动力爆发出更高效增长力。根据麦肯锡统计到2030年,数字化,劳动力市场规模可以达到1.73万亿水平。chatGPT的火爆,加速推动这个事件。 劳动数字化全面转变核心在于劳动力它的大脑、认知能力跟分析能力决定了数字劳动力是否能够准确的理解人类的任务指令,是否能够高效准确完成任务。chatGPT基于人类反馈的强化学习,经过千亿规模的模拟训练,能够有非常好的模型表现,可以融合世界的知识跟规则,使得认知能力跟沟通能力能够取得接近人的水平。chatGPT的火爆将增强大众对于对话式的AI的信心。我们会有更多的研究来加入行列,推动整个对话式的AI的发展。 对话式AI方向大概分成四类,一类是信息查询类的,用户可查询企业相关信息,相当 于我数字化劳动力能够替代枯燥重复性的劳动。另一类是专家咨询类,相当于数字劳动力能够替代部分或者扩充资源稀缺的劳动力。数字化劳动力需要大脑赋能。第三类是助手类,数字化劳动能够帮助人类去完成任务,帮订机票,帮预定会议等。相当于数字化劳动力能够帮助人类高效完成某些任务的动作。第四类是交流类的,数字化劳动力能够满足人类情感交流的需求,情感的陪伴,或者闲聊的场景等。在第一个场景精力查询类应用的比较多,比如智能客服机器人,零售,电商银行等售前信息的查询,是通过数字化劳动力去替代重复枯燥的人类的活动,是降本增效。 专家咨询类是NLP,加上世界知识,行业知识,为企业打造企业咨询。比如在法律咨询市场,根据司法部数据显示,全国办理各类的法律事务事件大概是1300,相当于我们涉及到诉讼或者是非诉讼的大概1300万件。按照中国的律师平均费率是大概一个小时2788,每个案件平均服务时长十小时来算,整个法律的咨询的总体市场规模达到3600个亿。 我们要把法律相关的知识形成一种企业的大脑,能够对外赋能,涉及到怎么去利用知识构建复杂的知识体系。第三个场景是助手类,很重要的一点是智能创作,如直播文案,广告文案的生成,剧本的创作。智能创作整个市场,主要分成几个,数字资讯类、数字营销类、行政办公类的。 18年各级的网信办审批的互联网信息、新闻信息服务单位总共有700多家。在主要的门户资讯,微信公众号,总量大概2100万,活跃账户有350万,每年SaaS软件一年3000块,这种报价来算,总体规模在120个亿。 数字营销类每年全球的广告支出蛮高的,Emaster数据显示,18的全球广告支出高达6000多亿美元,使用数字广告占到了2800亿美金。行动办公领域是智能创作的重点挖掘的对象,比如帮你协助,创作,写邮件,写报告等。按照每个用户付费100,总体规模达到530亿。第四交流类,在游戏行业,元宇宙的NPC,给养老机提供大脑。在医疗里行业里头,提供跟老人的情感陪伴,做主动式的问答,做痴呆式的预防 等。进行情感交流。卫健委老龄健康司数据显示,21年我国有1.9亿的老年人患有 慢性病,其中施治人数有4500万。这类人群对健康护理的需求很大。在专业护理机 构在配置上,轻度失能是4:1,要4个老人要配一个护理员,中度3:1,重度是2: 1。按平均来讲3:1。我国的养老护理员的需求量要到1500万。20年我国仅有50 余万养老护理员,这个缺口超千万。按照一台护理机器人5万计算,缺口比如替换 50%整个护理机人的市场规模会到2500亿。 Q:chatGPT提升的原因? A:加入了人类的反馈系统,第一步人类做的方案模型进行微调,得到模型。第二步模型根据问题生成答案,训练出奖励模型,这个奖励模型给第三步打分,相当于输入奖励模型,得到分数。优化,不断的迭代。目前的是问题它是非实时模型,离线模型,它获取到的知识是21年。21年以后的数据就不知道了。因此无法保证结果的可靠性,他会编造事实,一本正经地胡说八道。而且只能返回文本的信息。缺乏对行业数据的积累。它只是通用模型。并且训练成本过高,chatgpt训练的大概的预估成本在1200万美金以上。它的运行成本也很高。 首先拓尔思有着来自境内外的各行各业的数据市场,超过1200个亿,已经具备千亿数据索引等。这些是我们的核心资产,在大数据量的前提下,我们能够大力出奇,足够多的数据,模型有非常好的表现。 其次拓尔思技术的沉淀,坚持核心自主的研发,实现国产化,拥有40+发明专利, 800的软件的著作权利。另一个是客户的沉淀,整个数据的产品和服务已经被国内外 超过1万家的企业级的用户在广泛的使用。 智能客服基本是基于检索式,基于数据库,我们有深度模型,去库里检索答案,返回给用户。Chatgpt的思想是基于大模型,我们有排量数据去训练模型出来,再加入人类反馈的数据,就能够提供更优质的对话体验。 第二点,我们需要行业深耕,chatgpt是一个通用模型,缺乏对行业客户、行业知识的了解,而我们对行业是非常了解的。我们未来会让对话式的AI等这种人工智能技术跟行业客户的业务流程更深度融合,从局部业务到全场景的覆盖,实现全业务的数字化、智能化。我们会持续的在行业中不断的累加场景,深耕场景,解决核心业务的。从长远来看,拥有更好的数据,我们更有利于微调大模型,这样公司可以创造出一条可持续护城河。 Q:chatGPT可以对自己不懂的内容胡编滥造,那么目前技术发展路径如何保证AI回答模式的准确率呢? A:目前整个智能客服处在比较成熟的阶段,所采用的技术基于线索式,它保证了所有的回复都是从库里去拿出来回复给用户。Chatgpt基于生成式的回答给用户,它比较难保证回复的准确性。我们在后续的训练跟维护的过程增加规则和安全检测的模块进到系统,能够保证异常条件下规避掉这些问题。 Q:从公司的视角以及包括整个产业发展趋势来看,4个场景哪一块是最先有可能形成商业化的落地? A:几个点都有可能。一是专家咨询类的,实际上相当于是企业大脑的角色,需要把我这些行业的知识变成企业的大脑,变成模型的知识,ChatGPT证明了在一些大模型有比较好的表现。二是在智能创作,助手类的,公司能够去高效地提升智能创作的水 平,ChatGPT的一些文本生成已经能够满足创作者它的大部分的需求,能够去帮助创作者生成初级的版本,一些创作者在上面再去继续修改,在直播文案的生成、广告文案的生成、基本创作等等有比较好的效率提升。三是在交流类的,ChatGPT拥有比较大的模型,拥有比较好的世界知识,通用知识的前提下,它能够回答各类问题,说明如果公司比如在元宇宙或者养老领域里去做定制,可能也会有比较好的表现。 Q:公司是如何确保采集的数据是针对相关的行业,而并不是会跨到其他行业,因为其实现在有很多的名词,其实同时代表不同的行业的内涵。公司是怎么确保算法以及数据的针对性,是匹配到行业的? A:这其实是模型上下文关联的能力。实际上是大模型是能够学习到相关的上下文的知识的,比如拿法律的整个行业的数据进来训练出大模型的结构,再基于人类的一些反馈加入训练,最后出来的模型,它会在不同的条件下识别到不同的上下文的知识的。 Q:现在公司最大的痛点是在哪里?或者公司后续会在哪个行业率先落地相关的商业模式,并能产生实际的收益? A:实际上公司觉得训练的方法和整个技术原理实际上都比较清晰。接下来首先就是语义智能,它本身是经验型的,技术的积累首先还是来自于你所熟悉的行业,人工智能的场景的应用,要选择比较好的主题。在选择主题以后,作为公司在深度的知识的积累,最后结合语义智能,譬如分词分得更细,围绕着主体场景的理解可能就越深。后面通过训练数据源源不断的进来,训练的整个的模型,整个的算法积累的就会越来越丰富。所以公司觉得经验值是非常重要的。举个例子,公司在媒体行业,因为整个全国的新闻媒体,譬如垂直领域的120多家媒体,有40多家是公司的客户,一半以上的审计的融媒体中心也是公司的客户。公司这几年以来在整体的打包服务中,有托尔斯的妙笔小思的智能写作实际上就是合成,但是需要公司了解整个编辑记者他们在应用场景中间,先不断丰富积累他们的新闻要素,新闻稿件的形成的细节。原来编辑记者要花30分钟才搞定的稿件,我们可能快速的一秒钟就能够生成初稿,最后进行加工。另外,融媒体中心成立以后,出稿子的频率越来越快,任务越来越多,越来越大的情况下,需要能够快速高效的去完成工作。还有专家咨询,公司现在正在跟国家知识产权局深度的打造专业的咨询服务,整个国家知识产券局现在2万多专利评审人 员,80%的时间都在公司的三大平台上进行工作,这就是公司长期积累的知识。国家 专利局有全国最全的专利库,还有每一年向世界主要的专业大国交换回来的专利,但是这些文本信息都是一篇一篇的专利原作,公司对原作进行语义智能的分区,进行各种各样的标义,接下来在申请专利的过程中间,公司专利申请人员对于整个专利申请的流程包括整个专利检索的这些专业的知识,就能够打造公司专业的技术服务。公司实际上强调的还是对行业深入了解和熟