您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[北京阿丘科技有限公司]:2024生成式AI如何改变AI缺陷检测的传统范式白皮书 - 发现报告
当前位置:首页/其他报告/报告详情/

2024生成式AI如何改变AI缺陷检测的传统范式白皮书

2024生成式AI如何改变AI缺陷检测的传统范式白皮书

阿丘科技产品实战系列白皮书 生成式AI如何改变AI缺陷检测的传统范式 06 07 07 01 CONTENTS目录 产品背景 产生背景 生成式AI 02 02 01 02 生成式AI带来的客户价值 典型应用 外观缺陷检测 实现原理 04 06 实现原理 03 装配异常检测字符异常检测异物附着检测 04 未来展望 技术发展趋势:数据+生成式AI08 行业应用拓展:以数据为中心的平台08 一.产品背景 1.产生背景 (1)自动化和智能化对AI视觉的需求 随着自动化和智能化技术的快速发展,机器学习和视觉自动化技术在制造业中的应用越来越广泛。这些技术可以帮助企业实现自动化检测、分类、识别等任务,提高生产效率和产品质量。 但机器学习和视觉自动化技术的应用需要大量的高质量数据来训练AI模型。如果没有足够的训练数据,模型的性能将受到很大的影响。因此,如何快速、高效地获取大量多样化的数据成为了现代制造业中亟待解决的问题。 (2)当下制造业所面临的数据挑战 在当今的现代制造业中,各类厂商均面临着诸多严峻的挑战。一方面,市场竞争日益激烈,消费者对产品质量和个性化的要求不断提高。另一方面,随着自动化和智能化技术的快速发展,企业需要不断进行技术升级和创新,以保持竞争力。 然而,传统数据收集和拓增方式已经无法满足现代制造业对机器学习和视觉自动化技术的需求。 首先,传统的数据收集方式需要大量的人力、物力和时间投入。通常,企业需要对大量的产品进行实际生产、跑料拍照、人工值守才能获得缺陷样本,亦或通过人工手动破坏,从而制造缺陷。这种方式效率低下,耗时数月,且容易出现样本遗漏或错判,成本高昂。 其次,传统的数据收集方式难以在可控的时间内获得足够多样和高质量的数据来训练模型。在复杂的生产环境中,数据的多样性至关重要。不同的产品、不同的生产条件、不同的缺陷类型都需要一定量的特定数据来支撑模型的训练。但在有限时间内收集到的数据往往具有局限性,无法涵盖所有可能的NG情况,这就导致模型的泛化能力不足,难以应对实际生产中的各种变化。此外,训练数据的均衡性同样是一个重要挑战。在实际生产中,OK样本或常见NG通常远多于偶发NG样本,这种数据分布的不均衡会导致模型对NG类别的识别能力较差。例如,在缺陷检测任务中,如果训练数据中绝大多数都是常见NG和OK样本,模型可能会倾向于将偶发待检样本都判断为正常,从而降低了对缺陷的检出率。而且,数据集的缺陷质量、多样性也会影响模型性能。在数据采集过程中,可能会因为设备误差、人为错误或环境干扰等原因导致收集的训练数据标准不准确或不一致;亦或者NG数据的多样性不够(比如光照、NG位置、角度等),导致训练出来的模型对训练数据集过拟合,忽略了待检缺陷的多种形态。这些问题如果不能及时发现和纠正,将会直接影响到模型的训练效果和最终性能。 最后,基于专业图像编辑软件(例如Photoshop)的数据扩充方式需要专业人员投入大量时间制作,且高度依赖人员技能,难以保证训练数据可用性。 实时数据更新随生产环境变化定期点检,并优化数据集,确保模型有效性和准确性 标注质量 缺陷数据准确完整,保障模型学习的准确性 代表性多样性具有代表性、多样性,使模型能适应不同生产情况,提高鲁棒性 均衡性 保持不同类别/形态的样本数量相对平衡,使模型学习各种缺陷样式 数据量 充足的数据量提高模型泛化能力 2.生成式AI 生成式AI是一种可以创建虚拟图像内容和想法(包括局部缺陷图、带产品背景的全局缺陷图等)的AI技术。它基于大规模深度学习模型,通过分析和学习大量工业缺陷特征数据中的模式和关系,来生成原创的NG图像。生成式AI可以帮助解决传统NG数据收集和处理中遇到的多个挑战: 增加数据多样性。生成式AI可以基于有限的真实数据,生成大量的合成数据,扩充缺陷姿态的覆盖范围。 平衡数据分布。生成偶发稀缺的缺陷类别样本,缓解训练数据不平衡的问题,提高模型对稀有事件的识别。 提高数据质量。通过海量的预训练,模型学习缺陷之间的内在规律,进而生成高质量、一致性强的数据样本,减少训练集中的噪声和误导。 增强数据相关性。可以根据最新的生产状况及时生成新的过漏检NG,保持数据的时效性。 3.生成式AI带来的客户价值 (1)降低数据生产成本 传统的数据采集方式需要大量的人力、物力和时间投入,而生成式AI技术可快速输出合成缺陷数据和对应的标注信息,用户无需进行实际的采集和缺陷制造工作。而且,结合特定领域或行业的缺陷理解、技术优化、数据多样化的方法论,生成式AI技术可在短时间内生成大量的逼真的多样化数据,为模型训练提供充足的数据源。不仅节省了人力、物料成本,还提高了数据的质量和一致性。 (2)提高模型能力、加速模型收敛 众所周知,丰富的数据集有利于模型效果的提升。结合当下的先进技术手段,生成式AI技术产出的数据可以在虚拟环境中模拟各种不同的情况(尺寸、形态、亮度、位置等),生成大量的多样化数据,为模型训练提供了充足的信息输入,进而让模型学习到更广泛的特征和规律,减少模型反复训练的时间和计算资源的消耗,并提升模型的健康度。 (3)积累行业资产 生成高质量缺陷数据库 通过生成式AI技术,制造业用户生成的大量高质量数据不仅可以提高模型的性能,还可以积累和管理企业的行业缺陷数据资产。 提升市场竞争力 积累的行业资产可以为企业提供持续的竞争优势。随着时间的推移,用户可以利用积累的大量数据进行深入的数据分析和挖掘,发现潜在的市场需求和产品优化方向,从而推出更加符合市场需求的产品和服务。 例如,在消费电子供应链产业中,某企业通过阿丘科技提供的数据生成技术积累了大量的划痕缺陷图像数据。这些数据可以用于分析不同类型缺陷发生的现象和可能性,同时为产品设计和生产工艺的优化提供依据。除了提高缺陷检测的准确性和效率,还加强了自身在生产制造市场中的竞争力。 (4)帮助企业保持领先地位 在当今快速发展的市场环境中,企业需要不断地进行技术创新和升级,以适应市场的变化和需求。生成式AI技术为企业提供了一种高效、快速的数据生成和模型训练方法,使企业以数据为基础在短时间内推出更加先进和高效的产品和服务,满足市场的需求。 例如,在智能手机制造行业中,市场需求变化迅速,消费者对产品的外观质量和性能要求不断提高。传统模式下,企业需要不断地进行产线和设备升级,以推出更加符合市场要求的产品,而生成数据技术可以帮助企业基于过往的缺陷认知(比如老型号手机的NG)快速生成适用于新型号零部件外观缺陷图像数据,用于训练外观缺陷检测模型。这样一来,客户就可以在新产品上及时预防过往的缺陷,以及更早发现和解决产品的外观质量问题。 二.实现原理 目前,主流生成式AI技术方式是使用StableDiffusion作为基础框架模型,StableDiffusion是一种基于Transformer的图像生成模型,但该模型在工业缺陷生成领域因技术落地复杂、研发成本高、效果不可控等问题尚未普遍推广,而阿丘科技工业级智能图像生成软件AIDG (以下简称AIDG)在业界首先使用了该技术框架并克服落地效果问题。 首先,阿丘科技基于行业经验收集了大量不同尺度、不同类型的工业缺陷数据集,并在缺陷数据集中做好缺陷标注,输出缺陷掩码图。接着,对StableDiffusion模型进行预先训练,进而让模型认知具备了不同类型工业产品缺陷的知识,以及可能出现的缺陷模式。 在对StableDiffusion模型进行预训练的过程中,阿丘科技先把有掩码标注的缺陷图经过一个预先训练好的图像编码器,变成图像的深度特征编码。再经过一个符合马尔可夫链的概率扩散过程,把深度特征编码映射到与模型维度一样、符合高斯分布的隐空间(Latent)里。同时,用预先训练好的特征提取网络把缺陷特征提取出来,通过交叉注意力机制引入去噪网络里,最后再经过一个解码器还原成图像。 对于用户而言,首先需准备产品的某种缺陷类型的少量图像,然后在预训练模型基础上,对部分网络参数进行微调训练,从而生成与给定样式更像的缺陷样本。于是,在推理阶段输入新的OK图和对应的掩码图像,模型就能生成这种类型的新缺陷图。 通过上述生成方式,StableDiffusion模型可以按照预设的缺陷类型和参数,把正常的工业产品图像作为背景或参考进行缺陷再生成。比如,在做外观缺陷检测任务时,可以用OK图作为背景,生成各种脏污、划痕、裂纹等缺陷数据,还能精确地控制缺陷的位置、大小、形状等姿态,让生成的缺陷数据更真实、更多样。 在利用StableDiffusion技术生成缺陷的过程中,为了防止因为网络太复杂但样本量小而出现过拟合现象,阿丘科技经过理论分析和实验验证,选择适当地对模型进行裁剪和修改。这样,在保证图像生成质量的同时,缩小了模型的规模,减少了网络参数,提高了训练效率和推理速度。 对图像逐步增加噪声 输入真实缺陷图像 基于交叉注意力的去噪网络 从高斯噪声中逐步去噪 生成仿真缺陷图像 此生成缺陷数据的方式有三点重要作用: 第一,它极大地丰富了训练数据集。在实际生产中,收集到的真实缺陷数据往往数量有限,而且可能存在偏差。而通过StableDiffusion生成的合成数据可以弥补这一不足,可为模型训练提供大量的、涵盖各种可能情况的缺陷数据,可加快模型的收敛速度,提高模型的准确性和泛化能力。 第二,StableDiffusion生成的合成数据可以在虚拟环境中模拟不同的物理条件,如光照变化、角度变化等。这使得模型能够在不同的环境下进行训练,更好地适应实际生产中的复杂情况。例如,在不同光照条件下生成的缺陷数据可以帮助模型学习到光照对缺陷外观的影响,从而提高在实际生产中不同光源条件下的检测准确性。 第三,StableDiffusion可以自动进行精确标注。由于它是根据预设的缺陷类型和参数进行生成的,所以可以同时生成对应的标注位置、坐标等信息,减少了人工标注的误差和成本,提高了数据标注的效率和准确性。 三.典型应用 1.外观缺陷检测 良品图 脏污生成图 在电子制造行业的组件生产环节中,电子产品的外观质量是影响产品竞争力的重要因素之一。AIDG可生成外观类的各种缺陷数据,如划痕、污渍、屏幕亮点等,用于训练外观缺陷检测模型。 良品图 划痕生成图 单一涂胶缺陷图 多涂胶生成缺陷图 2.装配异常检测 装配错误 良品图 缺螺丝 良品图 在汽车装配、玩具组装等行业,装配异常可能会对产品质量或使用场景造成安全隐患。AIDG能够快速合成出组装环节的缺部件、装配不牢固、错装等问题,生成各种装配异常情况的数据,用于训练或验证模型,提高检测的准确性、缩短验收上线周期。 字符缺印 良品图 字符重印 良品图 3.字符异常检测(产品外刻字符)产品上的生产日期、保质期、序列号等字符标识是保证产品质量或安全的重要信息。AIDG的缺陷迁移模块可以快速模拟包装上的字符异常问题,提供充足的样本,作为训练或验证集确保AI模型对字符标识能够准确判定。 4.异物附着检测 标签纸 原图 产品上的异物附着是检测时需要关键关注的缺陷之一,它会在一定程度上影响产品功能,例如在PCB等行业,异物就可能引起导电或接触不良。AIDG可利用其素材库能力,处理各类产品表面的线头、污渍、杂质等异物附着的样本生成问题,解决异物类缺陷样本的稀缺现状,致力提升和检验AI模型的检出能力,进而保障产品质量。 四.未来展望 技术发展趋势:数据+生成式AI行业应用拓展:以数据为中心的平台 随着制造业的不断发展和智能化升级,其对缺陷检测的准确性和效率提出了更高要求。生成式AI技术通过深度学习算法和大量数据的训练,自动生成具有高逼真度的缺陷图像,为模型训练提供丰富的素材。但仅有模型是不够的,缺陷素材库的重要性日益凸显。一个完善的缺陷素材库可以为生成式AI技术提供源源不断的灵感和参考,包含各种类型的工业缺陷样本,涵盖不同行业、不