您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:百度(09888)文心一言是什么,目前的发展情况如何-调研纪要 - 发现报告
当前位置:首页/会议纪要/报告详情/

百度(09888)文心一言是什么,目前的发展情况如何-调研纪要

2023-03-29未知机构笑***
百度(09888)文心一言是什么,目前的发展情况如何-调研纪要

03261、百度文心一言是什么,目前的发展情况如何?百度文心ERNIE1.0在19年3月推出,百度文心一言是百度自研的语义大模型产品,在框架层由百度的深度学习框架飞桨和百度自研的百度昆仑芯支持。百度文心一言今年预计在toC和toB两个应用层端发力,其一是百度文心一言在三月份内测完后会第一时间接入百度移动搜索和百度智能硬件(小度、小度智能音箱),其二是toB端,基于百度智能云,目前已有几百家生态下游端商业伙伴将在自己的业务场景去接入文心一言。2、ChatGPT的技术路线是什么?ChatGPT的base模型是GPT模型家族从18年的GPT1到22年的GPT3的一个有1750亿的自回归式文本预训练大模型。21年和22年,OpenAI对GPT3做了一个改进,去training人类有监督的rewardmodel。在技术路线上,ChatGPT是一个在知识生成方面更有优势和体验更好的自回归式的预训练模型。在全球范围内,除了GPT,还有Google的Bert模型为主的双向式文本生成预训练模型。 3、文心一言发布的具体时间?发布的时间点预计为三月中下旬,具体时间未定。 4、文心一言初期的产品效果如何,和ChatGPT做对比?在中文领域,文心一言的产品体验远远优于ChatGPT,这是因为ChatGPTtraining的base模型文本数据中只有5%的中文语料。而ERNIEBot预训练的中文语料数百倍于ChatGPT,并且拥有很多中文领域的专业知识。5、文心一言和ChatGPT的差距在哪里? ChatGPT支持多地区多语种,不仅是语种,还有在该语种下的一些区域知识。ERNIEBot不支持这些。 6、文心一言上游的技术服务商有哪些?供应上游主要有三方面的生态伙伴,一是提供数据方面,有数据的标注供应商和数据的供给商,如百度众测、海天瑞声、龙猫数据等,主要帮助百度做预训练过程中的数据标注、清洗和采集的工作;二是算力供给方面,主要以英伟达a800芯片采购和百度自研的百度昆仑芯屏蔽方案为主;三是上层的人力服务方面,基于项目制的大模型落地,比如一些行业的文心大模型的合作和应用。 7、目前文心一言的算力储备情况如何?a100和a800都有,由于芯片法案禁令,a100现在不能购买 了。整体的高端算力芯片大概在两三万左右,这些用于base模型的训练过程,上线之后需要消耗多少还没有一个准确的测算数字,要上线后根据数据回流的情况和用户数据的情况去预估。8、海外的推理成本要比国内低很多吗?不是特别低。没有披露具体的成本,我们大概推出来是50个token一分钱的cost。 9、国内目前的推理能覆盖运营成本吗?是的。 10、国内现存的芯片数量够吗?不够,还要买新卡。目前a100,h100买不到,a800为中国市场专供的阉割版a100,要看后续中美关系的变化,若是环境更糟则可能在底层 的算力上就被卡脖子了。 11、中文数据库质量上的问题在哪?由于内容监管,很多数据不能使用。例如维基百科里面的数据,很多时候会有涉政立场和其它的敏感问题,如果使用这些数据去training,模型的输出内容就会有问题。另外在如学术之类的严肃领域,目前和国外还是有一些质量上的差距。反过来,中文领域我们也有很多关于中文特色的知识,国外无法获取。 12、后续算力会不够吗?会。目前主流的模型在几千亿到过万亿之间,a100,a800还够用,若是三到五年后,普遍到大模型到规模达到几十万亿,现在芯片的算力就不够了。若是美国政府继续限制算 力,那么国内的算力就会达到天花板。 13、百度文心一言的商业模式是什么?大模型是为了商业而服务的,今年的商业化策略分为两部分,toB和toC。在toC的主营业务搜索上,可能会出现一个新增的搜索入口,目前搜索入口有三个,分别是文本搜索、语音搜索和视觉搜索,ERNIEBot上线后会出现一个对话搜索,这是新的前端的交互,能够帮助用户去做一个更低门槛的搜索问答,在answer里将不会是原有的基于网页排序的搜索问答,而是一系列连续的chat,在chat里会融入一些广告。如何更好地融入广告是我们目前在做的一个方 向。14、目前监管的态度? 网信办对这类生成类产品的态度是一以贯之的,输出的东西要符合网信办内容审核的要求。国家现在对这块的态度是支持的,前两天北京市政府发布白皮书明确支持国内的科技龙头企业发展类似ChatGPT大模型的产品和应用。 15、微软、谷歌和脸书这三家大模型产品更看好哪一家?看好谷歌,谷歌在这方面无论是技术栈的储备还是数据的积累都和其它家不是一个量级。16、搜索引擎类的公司在这方面是不是有天然的数据优势,如百度,360?是的,但360目前没有钱去做。国内可能就百度阿里腾讯去做。 17、后续会出现跨模态的情形吗?今年ChatGPT有两个流言的版本,其一是GPT4可能会支持一些image或video这些跨模态,其二是做一个更大体量的GPT3。18、小公司会在垂直领域做一些“大模型”吗?是的,小公司可能会接入一些大公司的底层大模型,再在垂直领域基于自己的业务数据做定制。 19、音视频模式做出来需要很久吗?需要很久,首先在成本上要将GPU降得很低,现在a100十万人民币一克,成本降下来才能构建超大规模的算力群。 20、百度文心一言在中文上的优势? ERNIEBot更多是在中文领域的体验打磨,包括复杂指令、长指令和模糊指令,中文方面自己内部体验的结果是比ChatGPT好很多,数据更充足,训练的次数更多,文本的多元性和丰富性上更好。21、微软后续会将ChatGPT以插件的形式接入office这类产品吗?会,且很快。商业前景很高,商用文档场景有足够的产品标准化潜力,因为很多文档场景都是重复且枯燥的,若设置一些会员订阅制的商业形态,很快就会复利,交互很轻,边界成本很低,会构建一个很好的商业性产品。22、文心一言训练数据的来源?基本来源于搜索引擎,一些专业知识来源于百度智能云的行业数据。对于一些有版权的内容提供商,如果需要,百度会去购买。 23、文心一言下游行业应用的分布情况?去年主要是一些大V,大KA,比如金融大银行、能源、国家电网、人民日报等,今年主要还是一些细分头部的大top,或是一些中腰部企业,中腰部主要在一些泛互联网和媒体行业。一是媒体机构,无论是广电还是下游的媒体分支机构都很多,主要应用textto text能力;二是泛互联网,主要帮助它们构建一些知识图谱,处理在数据结构化之上的一些数据;三是一些知识内容平台,可以进行辅助写作,例如小红书、知乎和阅文。24、文心一言上市初期会是怎样的形式?逐步扩圈,会有小范围测试,普通用户可以体验一些具体的领域,但在一些高CPS值的例如医美,3C等暂不接入。 25、产品上线一到两年后对IDC的需求会增加吗?会。 26、上游公司在产品出来后会对数据集有更高的需求吗?逐步叠加,产品上线之后才能知道一些具体的需求,例如定制标注,清洗数据。27、在上游做数据集的公司和下游IDC服务器公司中哪个变化体现最快?IDC,上线后会推理的硬件成本是实时的,对算力的要求也是实时的。