您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:NLP的春天:大模型的行业运用 ——拓尔思交流会速记-调研纪要 - 发现报告
当前位置:首页/会议纪要/报告详情/

NLP的春天:大模型的行业运用 ——拓尔思交流会速记-调研纪要

2023-04-02未知机构李***
NLP的春天:大模型的行业运用 ——拓尔思交流会速记-调研纪要

第一部分,大模型开启了通用人工智能时代 公司认为,百亿到千亿规模下,不同的模型在不同领域可以出现智能涌现现在,通用人工智能的时代到来了。只有相信,才能看见。昨天马斯克的呼吁是好事,说明人工智能的影响力越来越大。多模态大模型是新一轮的军备竞赛。AI的工程化才是商业场景落地的关键。 第二部分,自然语言处理的春天到了。 大语言模型成了NLP的通篇。NLP是人工智能皇冠上的明珠。谁掌握了语言,谁掌握了未来。我们在这些基础上做两件事,一件是自然语言理解,一件是自然语言生成。最关键的是以前做自然语言处理的中间任务,在未来可能过时了。用生成来取代理解,既然理解不好搞,那就从生成入手。而我们公司从2000年开始就开始做这个技术,历史比较悠久。 第三部分,公司战略 公司提出目标——高质量行业大模型+领域知识数据。有大量优质的数据,模型的精度能媲美通用大模型,投资汇报就更高了。通用模型提供入口,在行业落地上,它在专、实、精、深是不够。公司认为,专业大模型的高质量体现在数据和知识工程的治理体系,数据资源、数据资产、知识运营等。我们从20年前开始,我们就建立大数据中心。我们有1000多亿数据量,2000多台服务器,互联网大数据中心和行业资质中心,这是训练专业大模型里最重要的抓手。公司现有三大数据资产平台,产业大脑,媒体资讯和网络舆情,包括1300亿以上境内境外数据资产,然后包括百亿以上的主题类资源性数据资产,还有专业领域30种以上市值资产、3万以上标签、八大业务场景。没有完美的模型,只有最均衡的模型。拓尔思知识问答模型指令微调流程(略),和昨天的360发布会进行了联动。 第四部分,基于大模型产业化的进展 我们在chatpgt出来之前,就有很多应用实践。2月份提出209计划,以金融风控报告自动生成、知识型搜索引擎、以文生图、智能投研知识问答、公文和新闻稿件辅助创作、康养服务机器人6大块。讲了4个例子(很超预期):①公文和新闻稿件辅助创作。72%的中央媒体、61%的省级媒体、40%以上的新闻单位都是公司的用户,是很需要这种能力的。②以文生图(现场演示)。③文稿自动生成摘要(现场演示)。④金融行业AI利用,自动分析生成产业链报告和研报(现场演示)。 拓尔思优势总结 ①专注NLP20年2018年公司定位语义智能,2020年开始研究和使用预训练模型。 ②在AIGC领域已经部署了超过百家以上的用户。 ③以高质量行业大模型+领域知识数据为公司战略。 ④大规模优质数据资产和AI工程化落地能力是拓尔思核心优势。 ⑤10000家以上优质行业客户的迭代升级,“钱”景可期。