您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[百度]:百度智能云千帆大模型平台加速企业多模态生成式AI应用落地 - 发现报告

百度智能云千帆大模型平台加速企业多模态生成式AI应用落地

信息技术2023-12-30-百度J***
AI智能总结
查看更多
百度智能云千帆大模型平台加速企业多模态生成式AI应用落地

焦点追踪:百度智能云千帆大模型平台加速企业多模态生成式AI应用落地 PublicationDate:DDMon2023 苏廉节 摘要 催化剂 生成式人工智能(GenAI)已在各行各业得到广泛应用。在开源和专有大型语言模型(LLM)的推动下,GenAI已应用于所有行业的120个应用场景中。虽然基于LLM的应用程序越来越受欢迎,但其本身仍存在固有的局限性。LLM主要针对文本和语音数据的理解、处理和生成进行了优化,无法进行多模态学习,也无法生成除文本和语音之外的其他输出。 为了解决上述问题,越来越多的厂商和开发者开始采用多模态GenAI技术。该技术能够处理多种输入形式,包括文本、图像和音频,并将这些提示转换为几乎任意类型的输出。这将进一步提升用户体验,因为模型可以实现多模态的理解和生成。 一方面,凭借其理解能力,用户可以通过文本、语音、图像和视频与应用程序自然交互。通过多模态数据理解上下文,多模态GenAI应用能够以更全面的方式作出响应,帮助企业从其他数据类型中获取情景感知的见解。 另一方面,多模态GenAI技术的多模态生成能力允许用户生成从文本到语音、图像、视频、音频、音乐、点云数据、遥测数据、3D模型和数字孪生等各种类型的输出。通过充分的预训练数据和微调,这些模型可以生成高保真且物理准确的输出,非常适合企业应用场景。 Omdia见解 希望部署多模态GenAI应用的企业可以与两类厂商合作。 第一类:专注于多模态生成服务的GenAI基础模型厂商。 这类厂商以提供多模态生成服务为主,例如,OpenAI推出了Sora,这是一项文本到视频的生成服务,能够生成超逼真的视频,主要面向消费、媒体和娱乐行业。 第二类:提供多模态的GenAI模型和应用的GenAI开发平台厂商。 这些厂商通常拥有深厚GenAI基础设施、工程和服务专业知识的超大规模企业。例如,百度智能云推出了文心系列基础模型以及多模态GenAI应用,如“曦灵” (Xiling)。帮助企业快速构建多模态AI解决方案。 与这两类厂商合作各有利弊: 第一类厂商提供的模型对于不熟悉该技术的开发者和企业提供了一个很好的起点。由于多模态生成能力是通过服务提供的,因此用户可以轻松访问。这种使用便利性以及较高的准确度,为非企业用户带来了诸多价值。然而,这类模型的多模态生成能力主要面向通用用途,缺乏针对特定用例的定制化选项,无法重新训练以满足特定需求,尤其是在高度监管的行业或业务关键的应用场景中。尽管这些模型在用户中很受欢迎,但对于希望构建企业级多模态GenAI应用的企业来说,这些模型的限制性很高。 相反,企业始终需要寻求基于最适合企业数据和业务目标的模型来开发多模态GenAI应用。这些模型需要具备高度的定制化能力、准确性、安全性,并符合市场的数据安全法规。由于并非所有开发者和企业都精通多模态GenAI,因此他们需要一个开发平台,该平台能够提供多样化的多模态GenAI模型选择,同时易于部署、优化和维护,以及满足高标准的AI治理和安全要求。 为了创建真正符合业务目标的多模态GenAI应用,提供全面多模态GenAI解决方案的全栈厂商更适合企业。鉴于该领域缺乏专业知识和资源,企业难以期望仅提供基础模型的厂商(第一类厂商)提供完全可定制的模型以及相关服务。全栈GenAI解决方案厂商的核心业务并非仅销售GenAI模型及服务,而是致力于推动企业采用。他们不会将自己局限于单一模型,而是会帮助客户挑选最合适的GenAI模型。企业和开发者可以使用其云产品和服务开发、部署和优化这些模型,从而实现业务目标。 表1:多模式生成式AI厂商类型 厂商类型 生成式AI模型供应商 生成式AI全栈解决方案提供商 多种运输方式产品/服务 多模式生成服务,如Sora。 基础模型、生成式AI开发平台、应用模板等。 性能 主要侧重于多模式生成。 同样能够进行多模态理解和生成。同样能够进行多模态理解和生成。 准确性和稳健性 有产生幻觉和不准确的风险。 可采用检索增强生成(RAG)、微调和防护栏等先进技术来防止出现幻觉。 易于定制 这很困难,因为这些模型是作为一种服务提供的。 可通过生成式AI开发平台上的许多工具进行再培训和微调。 市场影响 由于易于使用,它们在消费者中大受欢迎。 具有企业级的可靠性、安全性和治理能力,值得企业信赖和采用。 来源:Omdia 为何要将百度智能云千帆大模型平台纳入您的关注焦点? 百度智能云已经注意到了上述市场需求,并正在迅速行动以抓住机遇。该云服务提供商已经推出了一系列多模态生成式AI产品和服务,即文心系列基础模型以及千帆这一生成式AI开发平台。多模态生成式AI对百度智能云而言已是驾轻就熟,因为该云服务提供商早在2023年初就推出了其多模态文心模型。自此以后,百度通过其生成式AI开发平台——千帆,与客户和开发者共享了工具、功能以及所汲取的经验教训。该平台提供了全面的工具、库以及用户友好的应用模板,用于生成式AI应用开发,使百度成为企业在构建多模态GenAI应用时,无论处于哪个阶段,都能信赖的理想合作伙伴。 市场环境 截至2024年,大型语言模型(LLM)已经擅长在文本和语音交互中模拟人类行为。借助规模定律的优势,GenAI模型厂商和开发者推出了更大规模的LLM,这些模型在语言理解、数学 推理、写作能力等方面拥有广泛的知识储备。通过与顶级云厂商和系统集成商紧密合作,企业已成功部署GenAI,以支持企业搜索、客户服务、软件开发、数字营销和网络安全等领域。 GenAI在文本和语音应用中的成功,鼓励了开发者和企业通过向与GenAI应用的交互中添加更多数据模态来进一步提升用户体验。除了文本和语音数据外,用户还可以通过图像、视频、传感器和地理空间数据等其他数据源与应用进行交互,从而创建出具有更丰富上下文理解和响应类型的对话。 通常,多模态GenAI应用基于一系列LLM之外的基础模型,如扩散模型(DiffusionModel)、变分自编码器(VAE)、视觉语言模型(VLM)、视觉Transformer(ViT)和视觉-语言-动作模型(VLAM)。所有这些模型通常单独部署或相互组合,以执行多模态理解或多模态生成。 然而,如前所述,开发多模态GenAI应用颇具挑战性。首先,多模态理解和生成涉及大量文本到图像或文本到视频之外的数据模态,特别是在政府部门、运输和物流以及制造业等垂直领域。其次,应用必须仅根据企业数据生成精确输出。第三,应用必须基于特定用例的最合适的多模态生成式AI模型。第四,由于IT基础设施的复杂性,企业会优先考虑设计的易用性和开发的便捷性。第五,部署、集成和扩展过程必须无缝衔接。最后,应用必须安全、可靠且值得信赖。 产品/服务概述 作为多模态生成式AI市场的关键厂商,百度智能云旨在通过千帆平台,协助开发者和企业踏上创建多模态生成式AI应用之旅。千帆平台的核心在于,它为开发者和企业提供应用开发、模型开发和模型选择的解决方案。同时,千帆平台得到了百度百舸——百度智能云的AI硬件平台的支持,确保生成式AI模型和软件能够在最优的硬件配置上运行。 图表1:百度百舸和千帆 来源:百度智能云 为了鼓励企业和开发者在开发和部署多模态生成式AI应用时获得最佳支持,百度AI云推出了以下产品和服务: 多模态生成式AI模型目录,助力企业选择最合适的模型 百度智能云通过其2023年推出的ModelBuilder——基础模型即服务(MaaS)平台,为用户提供丰富的多模态生成式AI模型选择。目前,ModelBuilder已涵盖70多个主流生成式AI模型,其中包括open-sora、CogVLM2、LiteV、Qwen2-VL、SD1.5、SD-XL和GLM4V-9B等热门多模态生成式AI模型。开发者和企业可以根据自身需求,在ModelBuilder上对模型进行微调和优化。此外,该平台还支持企业预训练自己的专有多模态生成式AI模型。 高性能与成本效益兼备的训练与推理 一旦开发者或企业在ModelBuilder上对多模态生成式AI模型进行了微调和优化,他们就可以利用百度百舸来管理多模态生成式AI训练和推理的总成本。具体来说,百舸在以下三个方面为用户提供支持: 首先,百舸支持十多种AI芯片组,这些芯片组都经过优化,以支持热门的多模态生成式AI模型。平台提供了对众多AI异构计算芯片组的统一访问和弹性管理,使开发者和企业能够更好地利用不同芯片的特性。更重要的是,这个异构AI芯片平台使用户能够根据自己的性能期望和预算选择合适的AI计算资源。 其次,通过模型和数据并行性,可以显著优化训练时长。训练速度的提高将有助于降低训练成本。 第三,百舸还允许客户根据需要选择低成本的推理算力,通过复用空闲的推理资源,可以降低算力成本约20%。客户可以通过定制镜像或预配置部署模板快速部署推理服务,无需繁琐的调试工作,仅需数分钟即可完成推理服务的部署,从而节省时间与成本。 增强的RAG确保准确的多模态生成 如前所述,企业级多模态生成式AI应用必须提供准确的输出,避免“幻觉”现象。因此,多模态生成式AI模型必须与各种框架和技术相结合,包括RAG(检索增强生成)和微调技术。RAG对于确保多模态生成式AI应用的输出与既定用途及企业现有数据保持一致至关重要。 为了协助多模态生成式AI应用,百度智能云在2024百度世界大会上宣布了iRAG。iRAG专为图像生成而设计,它利用百度的搜索图像资源和文心系列模型的底层能力,能够根据各种输入生成多样化超逼真的图像,为多模态生成式AI应用提供了一个多功能的工具。百度通过其AppBuilder平台提供iRAG和其他RAG技术。 设计、开发和部署的便捷性 除了RAG之外,AppBuilder还提供了丰富的开发者资源和开发工具,包括提示工程、插件、组件开发、工作流编排器和应用分发。平台支持超过100种提示模板,涵盖自然语言对话、游戏、编程和创意写作等各种应用。 此外,平台还提供了行业专属的应用模板,这些模板即开即用且易于集成,大大降低了采用门槛。无论是能支撑企业知识管理的甄知、客户服务的客悦、数字人生成的曦灵和工业制造案例的一见,百度智能云利用其对IT基础设施和生产环境的深入了解,创建了这些即开即用的多模态生成式AI应用,以加速企业的采用。 最后,但同样重要的是,百度智能云还为其他垂直行业提供多模态生成式AI解决方案,如政府部门、交通运输和物流以及医疗保健。这些垂直行业在数据和AI方面有着严格的法规要求,因此生成式AI的部署需要深入的产业洞察和专业知识。 表2:百度智能云开发的多模态生成式AI应用模板 多模态生成式AI产品 多模态理解 多模态生成 客悦 文本、图像、表格、视频、网页 文本到图像、图像到图像、图像到视频、视频AI编辑 曦灵 音频、视频 文本到三维视频、图像到三维视频、视频到二维图像、问答 甄知 文本、图像、表格、视频、音频 问答、文本查询 一见 文本、图像、表格、视频、音频 报告生成 来源:Omdia和百度智能云 多模态生成式AI的评估、治理与安全 百度智能云基于TC260-003《生成式AI服务基本安全要求》中的大模型评估框架,构建了多模态生成式AI内容安全评估框架。该框架支持以下场景的内容安全评估: 文本生成图像 图像生成文本 文本和图像生成文本 文本和图像生成图像 通过这一框架,帮助企业对多模态生成式AI模型和应用进行风险控制。 此外,百度智能云的ModelBuilder通过安全框架、访问控制和加密技术提供了全面的安全措施。百度智能云还通过专业的安全咨询和评估服务提供技术支持,帮助企业更好地应生成式AI应用的安全挑战。其可以在百度旗下的多个旗舰产品(如百度搜索、百度地图、文心一 言)以及百度智能云上的非百度应用中部署代理。 公司介绍 背景 百度智能云是中国市场上顶尖的云服务提供商和AI厂商之一。凭借其广受欢迎的开源AI框架飞浆,百度智能云拥有中国最强大的开发者社区。2023年,百度智能