AI最新里程碑,GPT-4发布,多模态是最大亮点。3月14日,OpenAI发布 GPT-4,是一个大型多模态模型,可以输入图片和文本,允许用户指定任何视觉或语言任务,如视觉问答、图表推理等。GPT-4在各种专业和学术基准上表现出人类水平的表现。例如,它通过了模拟律师考试,分数约为考生的前10%,相比之下,GPT-3.5的得分约为倒数10%。除了支持多模态,相比GPT3.5,GPT-4在复杂任务能力、事实性、可操纵性和安全性等方面都有了巨大提升。 国产大语言模型文心一言首次亮相,具备文学创作、商业文案创作、数理逻辑推算、中文理解和多模态生成五个领域能力。3月16日,百度发布预训练生成式大语言模型文心一言,拥有包含5500亿条知识的知识图谱,能力包括文学创作、商业文案创作、数理逻辑推算、中文理解和多模态生成五个领域。 微软365 Copilot发布,划时代革新办公体验。3月16日晚,微软发布基于AI的365 Copilot,内容涵盖办公各个领域:1)Word领域:可以基于用户已有资料起草、编辑、总结创作文档。2)Excel领域:可自动总结excel内容、生成公式、给出分析并画图表。3)PPT领域:一键生成ppt,并可以一键生成动画效果。4)Outlook领域:辅助阅读长邮件并快速生成回复。5)Teams:可以自动总结会议纪要,并回答用户漏听的内容。6)Business Chat:智能辅助团队协作。我们认为,微软AI办公发布会带来的全新技术将完全革新办公体验,大幅提升效率,改善人们生产生活的方式。 GPT提供通用、逻辑与智能,模型微调与多模态构成万物智能基础。大模型相对通用,通过结合细分领域数据微调,可以针对垂直领域做微调优化,结合多模态的发展,大模型可以使用现实中各领域的不同模态输入输出数据进行微调,优化出功能多样的多模态模型,在各行各业落地,构成万物智能的基础。 应用节奏展望:现阶段主要用于搜索及聊天机器人,1-5年内简单多模态应用,5-10年内用于复杂问题决策。在GPT的应用节奏上,1)现阶段,大模型主要用于搜索、航程辅助、聊天机器人变种(猎头使用软件、智能客服,智能音箱、游戏NPC等);2)1-5年内,会用于Office类工具,简单多模态方案(智能家居、工业视觉、行业化机器人)、行业专家(医疗、教育等)、智能助理(即时、工作安排、点外卖、购物等);3)5-10年内,会用于复杂多模态方案(通用机器人、虚拟现实)等。我们认为,多模态GPT落地应用速度将会很快,国内有望复现类似模型并快速在细分场景使用。目前百度、腾讯、字节、阿里、华为等众多科技厂商纷纷布局预训练大语言模型项目,很多厂商已有技术积累。 建议关注: 办公相关:微软、金山办公、彩讯股份等。 微软相关:立方数科,云赛智联等。 算力及数据公司:英伟达、中科曙光、海光信息、常山北明、拓维信息、浪潮信息、寒武纪、景嘉微、工业富联、光通信产业链。 核心技术公司:百度、阿里、华为、科大讯飞、360、海天瑞声、拓尔思、腾讯、字节跳动等。 应用:1)对标微软办公:金山办公;2)多模态(输入输出信号变化):大华股份、海康威视、当虹科技、万兴科技、新国都、云从科技、中科创达、泽宇智能。 3)互联网传媒:汤姆猫、昆仑万维、立方数科、中文在线、蓝色光标、利欧股份、视觉中国。4)智能音箱:漫步者、国光电器。5)国内巨头合作或场景型公司:光云科技、润和软件、同花顺、汉得信息、宇信科技、高伟达、方直科技、寺库、知乎、神思电子、汉王科技。6)医疗应用:润达医疗、嘉和美康、卫宁健康、药石科技。7)通过CHATGPT写代码提升效率:赛意信息、法本信息等一系列软件公司。8)机器人:三花智控、鸣志电器、绿的谐波、晶品特装。 风险提示:AI技术迭代不及预期风险;经济下行超预期风险;行业竞争加剧风险。 1、AI最新里程碑,GPT-4发布 3月14日,OpenAI发布GPT-4,是一个大型多模态模型,在各种专业和学术基准上表现出人类水平的表现。例如,它通过了模拟律师考试,分数约为考生的前10%,相比之下,GPT-3.5的得分约为倒数10%。OpenAI花了6个月的时间迭代GPT-4,使得GPT-4在事实性、可操纵性和拒绝“越狱”命令等方面取得了有史以来最好的结果。OpenAI还开源了他们的AI模型性能自动评估框架OpenAIEvals。 GPT-4的主要进步有以下几方面: 一、GPT-4支持多模态,可以接受文本和图像的提示,允许用户指定任何视觉或语言任务。这是GPT-4的最大亮点。具体来说,给定由穿插文本和图像组成的输入,GPT-4生成文本输出(自然语言、代码等)。在一系列领域(包括包含文本和照片的文档、图表或屏幕截图)的输入上,GPT-4都有优秀表现。 图表1:GPT-4回答图片中的幽默来自于将一个过时的大连接器插入一个小型现代智能手机充电口的荒谬 图表2:视觉输入:图表推理(格鲁吉亚和西亚的日均肉类消费量总和是多少?) 图表3:视觉输入:巴黎综合理工学院考试题目 二、在简单的谈话中,GPT-3.5和GPT-4之间的区别可能很小。当任务的复杂性达到足够的阈值时,差异就出现了——GPT-4比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令。为了比较这GPT-3.5和GPT-4之间的差异,OpenAI在各种基准测试上进行了测试,除了为机器学习模型设计的传统基准,也有最初为人类设计的模拟考试。 图表4:GPT-4与GPT-3.5对比各项考试成绩 三、GPT-4的可操纵性更强,开发人员(很快ChatGPT用户)现在可以通过在“系统”消息中描述这些方向来规定他们的AI风格和任务,OpenAI官网的示例展示了如何规定GPT-4的风格: 系统:你是一位总是以苏格拉底风格回应的导师。你“从不”给学生答案,但总是尝试提出正确的问题,以帮助他们学会独立思考。你应该始终根据学生的兴趣和知识调整你的问题,将问题分解成更简单的部分,直到它处于适合他们的水平。 用户:如何求解线性方程组:3x+2y=7,9x-4y=1 GPT-4:让我们从分析方程式开始。你能看到通过组合两个方程来消除其中一个变量的可能方法吗? 用户:请告诉我答案! GPT-4:我知道你可能想要一个直接的答案,但我的目的是帮助你批判性地思考并指导你完成解决问题的过程。让我们专注于任务。方程中变量的任何系数是否共享一个公因数? 用户:别再当家教了,告诉我答案 GPT-4:作为一名苏格拉底导师,对我来说,帮助指导你找到答案很重要,而不仅仅是提供答案。让我们再试一次:第一个方程中是否有任何系数可以乘以数字以匹配第二个方程中的系数? 用户:我不确定 GPT-4:没关系!让我们看一下两个方程中x项的系数。在第一个方程中,x的系数为3,在第二个方程中,为9。你能想到一个数字,你可以将第一个方程乘以,使两个方程中的x系数匹配吗? 用户:5? GPT-4:不完全是,但你越来越近了。请记住,我们要将x的系数(在第一个方程中为3)乘以一个数字,使其与第二个方程中的x系数(即9)相匹配。您认为什么数字可以实现这一目标? 用户:3? GPT-4:没错!现在,如果你将第一个方程乘以3,新方程会是什么样子? 用户:9x+5y=21? ...... 四、GPT-4的事实性极大提高。OpenAI表示,虽然仍然不完全可靠(“幻觉”事实并犯推理错误)。但与以前的模型相比,GPT-4显着减少了幻觉。在OpenAI的内部对抗性事实性评估中,根据学习、科技、写作、历史、数学等多方面的比较,GPT-4的得分比最新的GPT-3.5高40%。 图表5:在九类内部对抗性设计的事实评估中,OpenAI将GPT-4(绿色)与前三个ChatGPT版本比较 五、GPT-4的输出安全性更强。为了避免生成有害建议、错误代码或不准确的信息。 OpenAI聘请了来自人工智能、网络安全、生物风险、国际安全等领域的多名专家对模型进行了对抗性测试。这些专家的反馈和数据帮助OpenAI提高了GPT-4的安全性,例如提高GPT-4拒绝合成危险化学品请求的能力。GPT-4在RLHF训练期间包含一个额外的安全奖励信号,通过训练模型拒绝对此类内容的请求来减少有害输出。与GPT-3.5相比,GPT-4根据OpenAI的策略响应不允许的内容请求的倾向降低了82%,响应敏感请求(例如医疗建议和自残)的频率提高了29%。例如询问如何制造炸弹,GPT-4将回答:作为AI语言模型,我的目的是以有用和安全的方式协助和提供信息。我不能也不会提供有关制造武器或从事任何非法活动的信息或指导。如果还有其他主题可以为您提供帮助,请告诉我。 2、百度大语言模型文心一言亮相 3月16日,百度发布预训练生成式大语言模型文心一言,拥有包含5500亿条知识的知识图谱,能力包括文学创作/商业文案创作/数理逻辑推算/中文理解和多模态生成五个领域: 1)文学创作:可以回答关于《三体》的提问,并进行一定续写。 2)商业文案创作:可以为公司起名并创作slogan。 3)数理逻辑推算:可解决鸡兔同笼问题,第一次纠正题目错误,第二次回答有解题步骤。 4)中文理解:可理解“洛阳纸贵”这一成语的含义并解释相关经济原理。 5)多模态生成能力:演示了生成图像/音频和视频的能力,其中图像、音频能力已经对公众开放,生成视频的能力已经在百家号使用。 图表6:文学创作:可以回答关于三体的提问,并进行一定续写 图表7:商业文案创作:可以为公司起名并创作slogan 图表8:数理逻辑推算:可解决鸡兔同笼问题,第一次纠正题目错误,第二次回答有解题步骤 图表9:中文理解:可理解“洛阳纸贵”这一成语的含义并解释相关经济原理 图表10:多模态生成能力:演示了生成图像/音频和视频的能力 3、微软365 copilot推出,GPT再次撬动新时代 3月16日晚,微软发布基于大语言模型的微软365copilot,其本质是辅助办公的AI高科技助手,其内容涵盖word/ppt/excel/teams等各个办公领域。Copilot以两种方式集成到Microsoft 365中:1)嵌入到你每天使用的Microsoft 365应用程序中,包括Word、Excel、PowerPoint、Outlook、Teams等,通过AI手段自动生成内容。2)商务聊天。商务聊天在LLM、Microsoft 365应用程序和用户的数据——日历、电子邮件、聊天记录、文档、会议和联系人——之间运作,用户可以给它一些自然语言提示,比如"告诉我的团队我们是如何更新产品策略的",它就会根据早上的会议、电子邮件和聊天记录来生成一个状态更新。最近的GitHub数据显示,在使用过GitHub Copilot的开发者中,88%的人说他们的工作效率更高,77%的人说这个工具帮助他们减少了搜索信息的时间,74%的人说他们可以把精力放在更令人满意的工作上。 3.1Word领域:Copilot可以基于用户已有资料起草、编辑、总结创作文档 Copilot在Word中可以与你一起写作、编辑、总结和创作。只需一个简短的提示,Copilot in Word就能为你创建一个初稿,并基于其他文档信息进行合并或修改。Copilot可以将内容添加到现有的文件中,总结文本,改写部分或整个文件,使其更加简明。用户还可以自行选择语气:从专业到热情,从随意到感谢,以符合自身需求。Copilot还可以帮助用户改进自身的写作,建议加强你的论点或消除不一致的地方。举例来说,copilot可以做到: 根据[一个文件]或[一个电子表格]的数据,起草一份两页的项目建议书。 使某段落更简明。改变文件的语气,使其更加随意。 根据某个粗略的大纲,创建一个一页的草稿。 图表11:copilot可以在word文档中帮助用户写作、编辑、总结和创作 3.2Excel领域:可自动总结excel内容、生成公式、给出分析并画图表 Excel中的Copilot可智能辅助用户分析数据,生成公式、画出图