高效与安全并重: AI软件供应链管理策略与最佳实践 李威 JFrog高级解决方案架构师 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 请替换您的照片 李威 JFrog高级解决方案架构师 DevOps教练。《软件研发效能权威指南》联合作者。 验,带领团队从零到一实践DevOps转型。 曾就职于京东、烽火等互联网企业及传统企业,十余年一线开发及运维经 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 什么是AI软件供应链 目录 AI软件供应链引入与管理的实践 大模型管理与治理的最佳实践 安全与开源许可证合规管理方案 01 什么是AI软件供应链, AI软件供应链管理有什么痛点 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 AI/ML与传统软件研发的异同 角色不同,目标一致,并行“构建”过程与“结果”,带来版本管理的复杂性和ML效率问题 https://jfrog.com/blog/ml-model-versioning/ 高维护成本 AI/ML对软件供应链的需求 权限管理缺失 Python依赖: •Pypi •Conda Docker镜像: •Docker 无多中心同步能力 •Helmchart Models: 难于共享 并发性能 •HuggingFace代理 •私有Model 无法高可用 DataSets: •HuggingFace代理 仓库类型缺失 •私有DataSet GOPS全球运维大会暨XOps技术创新峰会2024·北京站 安全扫描缺失 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 为什么需要PrivateHuggingfaceHub “类似于PrivateGithub、PrivateDockerhub,也需要PrivateHuggingfaceHub” https://huggingface.co/blog/introducing-private-hub 通过与ML/DataSci团队的数千次对话,有了对构建ML面临的最常见问题和挑战的独特视角:重复的工作、不良的反馈循环、跨团队协作的高摩擦、非标准流程和工具以及生产模型优化困难。我们不再提供PrivateHub本地部署。 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 如今AI/ML模型版本管理的问题 •使用S3存储桶 这会让数据科学家自行命名每个上传,这通常会导致命名不一致、File_Name_Final_Final_Final难题,甚至丢失文件。 •使用Git 数据科学家和工程师只需在Main分支上堆叠Commit,利益相关者可以看到以前的提交,但没有简单的方法可以知道他们每次提交会得到什么,因为名称只是一组随机字符。 “基于FTP/SVN的手工作坊又回来了” 02 AI软件供应链引入与管理的最佳实践 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 软件供应链单一可信源 •软件供应链仓库 •操作系统软件供应链(yum、apt) •开发语言依赖组件供应链(开发语言私服) •容器供应链(镜像及helmchart) •AI供应链(Model、pypi、conda、Docker) •传统制品(tar、zip) •企业单一可信制品库是软件供应链仓库,也是企业软件资产仓库。 •低维护成本、高可用、高性能的仓库 •没有统一管理,就无法治理。 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 JFrog|Qwak一体化ML管理平台 Build,Train,Secure,Serve,andMonitorMLModelsandGenAIinaUnifiedExperience AI软件供应链 Python库 NumpyTensorFlowPandas GensimStatsmodelsOpenCV HuggingFace ModelDataset Docker库 nvidia/cudapytorch/pytorch 大模型制品管理痛点: 1,大文件,MLModel制品大多在几 十G-上百G PyTorch Diffusers NLTK •ModelScanning •ModelCompliance •PypiSCA •DockerSCA •SecretsDection •RemoteModelProxy •RemotePypiProxy •RemoteDockerHubProxy •DataSetLocal •ModelLocal •DockerLocal Scan 2,容器镜像存储量大 3,资源访问限制,上传下载速度限制 4,记录训练信息及过程5,安全风险及License许可问题 Tu ning Datascientists GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 AI供应链引入与管理方案 Tuning Data Scan Scan Fine-TunedModels Deployment •RemoteModelProxy •ModelScanning •ModelCompliance •LLMCompliance •LocalModelsandDataRegistry Proxy ing Tun ta Da Runtime GOPS全球运维大会暨XOps技术创新峰会2024·北京站 Artifactory“多类型”和“大模型”使用场景 1.研发依赖管理(多地同步) ○多种语言包的管理能力,Maven、Docker、Python、Conda、Huggingface模型上传下载 2.大文件管理(本地上传下载) ○对比FTP具有去重存储和上传,降低存储和传输成本,高可用,灵活权限管理和API集成 ○单机制品库上传速度上限为1000MB/s ○单机制品库下载速度为880MB/s(客户端数量不足,理论能打满带宽) ○横向扩展制品库节点,可以倍数提高上传和下载速度 3.E+制品分发(边缘就近下载) ○通过ReleaseBundle分片分发,GPG签名保护下载权限 ○分发制品传输速度为100MB/s(两地互联网带宽限制) GOPS全球运维大会暨XOps技术创新峰会2024·北京站 对比FTP/S3-并发下载可打满80-100%带宽 多研发中心场景 多地场景: •多中心,就近加速Model下载 •异地多活 •计算卡在云上 海外 Huggingface-locaGeneric-locaDocker-localConda-loca Pypi-local 多地镜像联邦仓库 DC Huggingface-locaGeneric-locaDocker-localConda-loca Pypi-local 多地镜像联邦仓库 云 Huggingface-locaGeneric-locaDocker-localConda-loca Pypi-local •海外计算 Mysql NAS MysqlS3 MysqlS3 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 03 大模型版本管理与治理的最佳实践 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 软件供应链可信管理:元数据 •用于记录软件生命周期信息,解决制品黑盒问题 •打破部门墙,在上下游传递制品信息 •支持元数据正向、反向查询 •可作用于制品筛选、制品清理、制品按需分发等 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 依赖包交付物 •准入申请、审批信息 •生命周期信息 •Model原始信息 •训练数据集信息 • • • • • • • • • • • • 代码分支、tag 需求/task信息 开发团队/人员信息构建流水线信息 代码扫描结果测试结果 供应链扫描结果 第三方安全、合规检测信息文档信息 审批记录发布信息 归档信息 AIModel 嵌入式软件包 •匹配设备型号 •目标客户信息 •分发同步信息 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 JFrogAI/ML模型版本管理方式 1.更好的存储和性能,替换FTP/S3 2.模型管理版本化 3.元数据可视化 4.存储空间可清理 5.易于分享模型 6.晋级模型,而无额外存储成本 7.同步模型到生产环境,而无额外网络成本 8.模型安全扫描 https://jfrog.com/blog/ml-model-versioning/ 模型版本管理 DEMO GOPS全球运维大会暨XOps技术创新峰会2024·北京站 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 与MLFlow集成 删除实验后,一旦MLflow的垃圾收集器运行,它也会默认从其相应的JFrogArtifactory存储库中删除。也可以配置永久保留。此功能可有效管理您的存储资源。 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 JFrogAISecOps与Qwak集成 例如JFrog与Qwak集成的完整AISecOps解决方案,可实现团队之间的无缝交叉协作。 1.将所有模型、制品集中在唯一可信源中 2.减少外部服务中断或消除公共存储库中模型或包版本的潜在风险 3.管理和限制对外部私有或公共存储库的访问,确保用户只能使用经过批准的源 4.为利益相关者提供有关公司内部使用的内容的全面透明度 JFrog+Qwak-https://jfrog.com/blog/jfrog-to-acquire-qwak-to-streamline-ai-models JFrog+AWSSageMaker-https://jfrog.com/blog/integrating-jfrog-artifactory-with-amazon-sagemaker GOPS全球运维大会暨XOps技术创新峰会2024·北京站 JFrogAISecOps与Qwak集成 例如JFrog与Qwak集成的完整AISecOps解决方案,可实现团队之间的无缝交叉协作。 1.将所有模型、制品集中在唯一可信源中 2.减少外部服务中断或消除公共存储库中模型或包版本的潜在风险 3.管理和限制对外部私有或公共存储库的访问,确保用户只能使用经过批准的源 4.为利益相关者提供有关公司内部使用的内容的全面透明度 04 开源大模型安全扫描 与开源许可证合规管理方案 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 利用ChatGPT的供应链幻觉攻击 攻击者 1.问题 2.回复不存在的包 ChatGPT 3、发布恶意包 包存储库 6.npminstall 7.恶意代码执行 4.问题 5.回答带有恶意包名称 开发者 GOPS全球运维大会暨XOps技术创新峰会2024·北京站 https://jfrog.com/blog/analyzing-common-vulnerabilities-introduced-by-code-generative-ai GOPS全球运维大会暨XOps技术创新峰会2024·北京站 Catalog DMZ JFrogPlatformwithCuration JPD+XRAY+JAS+CURATION JPD+XRAY+JAS+CURATION CI/CD Developer CI/CD Developer 1st 2nd 1st 2nd InternalNetwork 供应链防火墙 ●Curation隔离仓库 ○隔离阻断高危漏洞开源组件 ○漏洞包无法进入内网 ●内网JFrog仓库 ○连接到隔离区的JFrogCuration隔离仓库 ○持续漏洞扫描 JF