时间:2023年5月11日 新推出PalM2基础模型:有四种大小,小型可以部署到移动端,易于微调各类细分模型,Med-PalM2在医学上达到临床专家水平 对话模型Bard,基于PlaM2,编程能力极强,会20多种编程语言,调用多种工具丰富回答形式,包括谷歌搜索、地图、表格,adobefirefly画图。 产品全面接入AI能力,AI帮助gmail写邮件,googledocs写文案,googlesheets做表格,googleslides做ppt,googlemaps沉浸式地图,googlephotos智能p图,google搜索多轮对话 VertexAI平台:赋能企业和开发者,可以选择多种基础模型,简易地进行微调和人类反馈强化学习得到自己的模型 AI基础设施:A3虚拟机,基于英伟达H100,训练速度比目前其他设施快80% ,成本低50% AI安全:水印和源数据保障生成式AI内容安全,创建大语言模型评估标准来评估有害内容 新硬件发布:Pixel7a手机、PixelFold折叠屏、PixelTablet平板,使用专为AI设计的G2芯片 一、新推出PalM2基础模型 随着生成式AI的出现,我们重新构想了所有的核心产品,稍后大家会在主题演讲当中了解更多的内容,让我们用一些例子来说明生成是AI是如何帮助我们提升产品的。 首先,先从邮件开始。2017年我们推出了smartreply智能回复,只需轻击鼠标就可以选择简短的回复。接下来我们也推出了smartcompose智能撰写功能,可以在用户打字的时候提供写作建议,smoakcompose不断的完善,实现了由AI驱动的更先进的写作功能,并且在过去一年当中就被使用了超过1,800亿次。现在通过更强大的生成式模型,我们在Gmail中实现了更先进的功能,推出了helpmewrite帮我写功能。 假如我们收到一封电子邮件提示说你的航班被取消了,航空公司给你发一张代金券,但你真正想要的就是全额退款,你可以使用帮我写功能来进行回复,只需要输入你想要的提示信息,一封要求全额退款的电子邮件,然后点击创建一份完整的草稿就会出现了。 正如大家所看到他非常方便的从上一封邮件当中提取到了航班详情,看起来非常接近想要发送的内容了,或许你可能想进一步完善它,在这种情况之下,一封更详细的电子邮件可能会增加获得退款的机会。 第二,maps方面,推出街景视图以来,AI已经拼接了数10亿张全景图,让人们可以在自己的设备上探索世界。在去年的io大会上,我们又推出了沉浸式视图,也就是利用AI创建一个地方的高保真地图,让用户可以在到达之前就可以 获得亲身的体验。 现在我们正在将同样的技术拓展到maps最擅长的领域,帮助用户到达目的地 。谷歌maps每天提供了200亿公里的路线指引,如果你能够提前看到整个旅程那会有多棒。所以现在通过沉浸式路线视图,无论是步行、骑车还是价值都可以实现这一点。 假设我在纽约想骑自行车出去玩一下,maps给了我一些路线的选择,我选择靠海边这条路线,但我想先感受一下,点击沉浸式路线视图,这就是一种全新的旅程视角,可以缩放地图能获得很棒的鸟瞰视图。当转弯的时候,你会看到又进入一条自行车道。 同时还可以去了解今天的空气质量怎么样,如果你想要看交通和天气情况的话 ,来了解在接下来几个小时之内会发生的一些变化也是可以做到的。 沉浸式路线试图将会在今年夏天推出,并且在今年年底前会在15个城市上线,包括伦敦、纽约、东京和旧金山。 第三,通过AI得以提升的产品就是Googlephotos。我们在15年的io大会上推出了这样一个产品,它也是我们首批AI原生产品之一,得益于机器学习技术的突破,能够让用户在照片当中搜索人物日落或者是瀑布等等元素。 每个月有17亿张图片在Googlephoto上被编辑,AI的进步为我们提供了更多强大的方法来做到这一点。比如我们率先推出了MagicEditor,魔法橡皮擦可以使用AI驱动的计算摄影来消除不必要的一些干扰。今年晚些时候,我们会推出结合语义理解和生成是AI的MadgeAkhtar魔法编辑器,能够获得更多新的体验。 假设我们在徒步旅行停下来在瀑布前拍照了,你希望在照片当中不要把这个包背在身上,我想把包去掉,所以你可以去移掉包袋,这张照片感觉有点暗,所以你可以改善光线,或者说你想去掉一些云层,让天空就像你记忆当中那样晴朗和明媚。 从Gmail到photos到maps,这些只是AI如何在重要时刻提供帮助的这个例子 ,我们还可以做更多的事情,在你熟悉的和喜爱的产品当中,充分的发挥AI的全部潜力。 今天我们有15种产品的用户数量都超过了5亿,能够为个人和企业提供帮助,其中6个产品的用户数量已经超过了20亿,这给了我们有很多机会来践行我们的使命,那就是整合全球信息供大众使用,并且是人人受益,所以这是一项永恒的使命,随着时间的推移它会变得越来越重要。 展望未来,让AI惠及每一个人,是我们推进这一使命影响最为深远的方式。我们也正通过4个重要的方式来实现这一目标。首先通过提高用户的知识和学识来加深他们对世界的理解。第二,通过提高创造力和生产力,帮助用户表达自己,并且把事情做好。第三,赋能开发者和企业打造具有变革性的产品和服务 。最后,通过负责任的创建和部署AI使每一个人都能够平等受益。 今天我们将宣布超过25种基于Palm2的产品和功能,在各种模式之下都能够提供出色的基础功能,分为四种大小gecko、otter、bison和unicorn gecko其实非常的轻巧,它可以在移动设备上进行工作,其速度快到足以在移动设备上运行出色的交互式应用程序,哪怕是在离线的状态之下也可以做到这一点。 由于对科学和数学主题进行了广泛的训练,Palm2模型的逻辑和推理能力更强 ,而且他还接受了育百种语言文本的训练,因此他能够理解并且生成精确的结果。结合强大的编码能力,Palm2还可以帮助世界各地的开发者来进行合作。 第一个例子,假如我们要和首尔的一位同事一起工作,而且要做代码调试,你可以要求他修复错误,并且通过在代码中添加韩文注释来帮助你的队伍。 首先它识别出这个代码其实是递归性代码,所以它会建议修复,然后会解释修复背后的原因,并且按照你的要求会添加韩文的注释。 另一个例子,Palm2微调与基础Palm2对比,使得不准确的推理减少了9倍。而且也接近于回答同一组问题的临床医生专家的表现,也是第一个在医学执照考试上展现出专家水平的语言模型 目前模型还在持续进步,为放射科医生解读影像。二、Sissie:对话模型Bard 水印和原数据就是两个重要的方式,水印将信息直接嵌入到内容当中,既是经过适度编辑的图像水印也能保存,其中未来我们我们也在建立自己的模型,让水印从一开始就融入其中。如果你看到这张合成图片,你会发现它非常的真实 ,令人印象深刻,这也就是为什么这项责任如此的重要了。 有Palm2作为Bard的加持,数学逻辑和推理的能力大步向前,使得我们能够帮助开发者进行更好的编程bug,现在可以在整个代码生成代码调试,并且对于代码的片段进行解释方面,可以彼此之间相互协作,Bard实际上已经学会了20多个编程的语言编程。 举个例子,最近我在学怎么样去下棋,想用Python去做一个4不杀,我怎么样能够去做一个4步杀,怎么用Python去这样做?Baard做了一个脚本,并且用Python语言去建立了4步杀,而且他把这个格式写得非常易读。 下一周大家就会发现代码引用变得更加准确,所以如果大家点击一下就会把一串代码引向它的原地址。 除此之外,它还能理解我们的代码,这里边的代码是什么意思,它在这个客户当中的作用是什么,这是一个超级有用的解释的功能,它能够化繁危险,变得更加清晰 接下来的几周当中,bard将会变得更加视觉化,无论是给你的答案,还是你对它的提示都更加视觉可见。举个例子,如果你问一下在新奥尔良有没有什么不得不去的景点,然后 Bard他及时直接用一下Googlesearch和knowledgegraph去找到最相关的图片就给你了。 在接下来几个月当中,我们将会把googlelens的能力带给Bard。如果你特别喜欢养狗,然后把他们的图片上传,然后问bard说能不能写一下关于这两个家伙的一个有趣的一陈述或者说一个标题?他可以识别这是一个德国牧羊犬和金毛猎犬。 在上大学时,动画是我感兴趣的一点,问一下在宾夕法尼亚有没有一些有很好的动画课程的大学?学校的名单就生成了,并且可以在图表当中给我写出来,然后巴尔特就能够用谷歌地图,然后给视觉的展示这些学校在哪里。 我们在180个国家和地区把bard给大家开放了,在各个地区可及可用。 并且它有更多的语言可用,除了英语之外,从今天开始我跟大家宣布bard的对话可以用日语和韩语了,并且马上就要去支持40种语言了。 三、Aparna:产品全面接入AI能力协同的第一步就是在 Gmail和DOC当中加入了帮我写功能,该功能于3月份在首批测试用户当中已 经进行测试了,可以帮助我们写文章,做销售展示,写项目计划,做客户拓展文案等等。 从那时候起,我们就致力于将这些有用的功能拓展到更多的使用场景,最受欢迎的用例之一那就是写一个职位描述,每个企业无论是大小都需要去招聘人员 ,一个好的职位描述,可以让招聘工作更加的高效。 使用以下这个句子作为这页幻灯片的图像生成提示,妈妈喜欢吃奶酪味十足的披萨,但是爸爸最喜欢吃的是瑞士火锅。 在后台这段文字作为输入命令,会发送到我们的文本图像生成模型,如果只生成一张图片是肯定不能让用户满意的,所以我们选择生成6~8张图像,这样你可以选择和重新设计了。看起来我有了非常奇妙,而且美味的火锅。 还有一个比较有趣的观察,就是通过这样的协作方式,实际上可以更容易产生思维反应,或者利用生成的内容让我们思维有更多不同的角度,这就是AI的作用。撰写了一个故事,这个故事有村庄、金色贝壳,还有一些其他细节,这些内容都不需要我们自己输入,因为模型会从文档当中提取这些细节,并生成图像,把它嵌进故事文档里。 四、Sundar:GoogleSearch 在GoogleSearch进行创新,连续多轮对话实时搜索。我喜欢的电动自行车颜色告诉Google Search,比如说红色,这个时候不再需要回到表格,然后因为Google search他已经了解你的意图了,在对话的模式之下,它是一个全方位一体化的体验,所以大家就是滚动这个条就可以了。 我三岁的女儿其实特别喜欢鲸鱼,然后我就想告诉小朋友,为什么鲸鱼喜欢唱 歌? GoogleSearch会有条不紊的把搜索结果给我组织在一起,然后把重要的点给我提亮了 ,一目十行看到原来鲸鱼他们唱歌有好多的原因。 五、Thomas:GoogleCloud Googlecloud可以帮助大家来抓住AI面前的巨大的机会。Vertex AI平台赋能企业和开发者,可以选择多种基础模型,简易地进行微调和人类反 馈强化学习得到自己的模型。 企业应用程序和网站中检索到全新而真实的信息,我们给大家带来了Enterprisesearch,企业版搜索我们的AI平台对于企业来说是非常有吸引力的,因为它保证了大家的数据隐私。 与合作伙伴结合,通过将其自己的AI能力与Googlecloud能力相结合,可以创建自己深度个性化的角色,并且进行交互。 除了palm之外,vertex当中的几个新模型,可以通过文本输入生成编辑和定制图像。 第一个是imagen,可以通过文本输入生成编辑和定制图像。 第二个是Chirp,这是一个通用的语音模型,可为超过300种语言提供准确的语音转文本的功能。 第三个创新模型就是codey,用于代码自动补全和生成,可以在自己的代码库上进行训练,也帮助更快的构建应用程序。 公司在优化了的AI基础设施之上,构建所有这些功能,使得大规模训练工作的负载的速度比任何其他的替代方案都要快80%,而且成本要比其他任何方案都要低50