您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[超益集伦]:人脸识别系统搭建与面部生成算法在线研讨会-超集信息解决方案部高级硬件工程师沈佳威-GPU新架构下人脸识别的训练与推理 - 发现报告
当前位置:首页/行业研究/报告详情/

人脸识别系统搭建与面部生成算法在线研讨会-超集信息解决方案部高级硬件工程师沈佳威-GPU新架构下人脸识别的训练与推理

信息技术2022-12-10-超益集伦持***
人脸识别系统搭建与面部生成算法在线研讨会-超集信息解决方案部高级硬件工程师沈佳威-GPU新架构下人脸识别的训练与推理

GPU新架构下人脸识别的训练与推理 2022-12 Tomas 人脸识别现状 •人脸识别现状 •人脸识别面临的问题 人脸识别系统,是指不需要人为干预,能够自动获取人脸图像并且辨别出其身份的系统 1.基于简单背景的人脸识别 人脸识别研究的初级阶段,利用人脸器官的局部特征来描述人脸 2.基于多姿态/表情的人脸识别 人脸识别现状人脸识别研究的发展阶段。探索能够在一定程度上适应人脸的姿态和表情变化的识别方法,以满足人脸识别技术在实际应用中的客观需求 3.动态跟踪人脸识别 人脸识别研究的实用化阶段。通过采集视频序列来获得比静态图像更丰富的信息,达到较好的识别效果,同时适应更广阔的应用需求 4.三维人脸识别 为了获得更多的特征信息,直接利用二维人脸图像合成三维人脸模型进行识别 数据采集 数据处理 识别计算 特征抽取 人脸特征库 人脸图像获取人脸检测定位人脸区域人脸特征 预处理 对比识别结果 人脸识别流程 图像去噪:受前端数据获取途径的影响,噪声通过多少方式融入,严重的情况会直接导致整幅图像的不清晰,图象中的景物和背景的混乱 增强对比度:为了使人脸在图像中更为突出以便于下一步的特征提取,常见的有直方图均衡化和 图像预处理 “S”形变换 二值化:图像经过灰度变换后仍然是比较复杂的,需要将多层次的灰度图像进行简化 锐化:使用梯度微分锐化图像时,会使噪声、条纹等得到增强基于模板的方法:固定模板匹配法,变形范本法等 人脸检测与定位 基于特征的方法:基于器官特征的方法,基于肤色的方法等基于外观学习的方法:隐马尔科夫模型等 自适应性提升算法:Adaboost方法:Haar特征,积分图 人脸特征提取:特征提取之前一般需要做几何归一化和灰度归一化的工作。前者是指根据人脸定位的结果将图像中的人脸区域调整到同一位置和大小;后者是指对图像进行光照补偿等处理,以克服光照变化的影响统计特征:统计特征即用统计的方法对目标对象的肤色、光照变化等因素建模灰度特征:灰度特征包括轮廓特征、灰度分布特征(直方图特征、镶嵌图特征等)、结构特征、模板特征等 人脸特征提取常用方法: 1.利用变形模板进行特征提取。 2.变换域中的特征提取; 3.几何特征点的提取; 1模板匹配方法:弹性模板匹配是根据待检测人脸特征的形状信息 (通常利用小波特征) 人脸识别方法: 2几何特征方法:基于几何特征的人脸识别方法将人脸用一个几何特征矢量表示,用模式识别中的层次聚类思想设计分类器来对人脸进行识别 3特征脸方法:主成分分析(PCA)导出的一种人脸识别和描述技术 4神经网络方法:神经网络是利用大量简单处理单元(神经元)互联构成的复杂系统来解决识别问题 如何准确地高速的识别目标 如何有效的增加存储容量 如何有效的组织出相关算法 机器视觉处理器能 力不足 机器视觉算法数据 集越来越大 相机及传感器发展 受限 更高分辨率与更小 光源的社会需求 全新GPU加速AI训练和推理 •大型数据下存储的选择-数据量 •大型数据下计算的选择-GPU服务器 •大型数据下软件的选择-多用户场景AIMAX 图像采集像素与分辨率的对应关系 像素大小 30万 130万 200万 500万 分辨率(长*宽) 640*480 1280*1024 1600*1200 2480*2048 精度估算值 1/500 1/1000 1/1200 1/2000 图像采集分辨率下所需的存储空间(1psc) 分辨率 码率 小时 天 周 月 8K(7680*4320) 120Mbps 52.8GB 1265.4GB 38.8TB 162.6TB 4K(4096*2160) 90Mbps 39.6GB 948GB 6.48TB 27.1TB 2k(2560*1920) 20Mbps 8.8GB 210.9GB 1.44TB 6.18TB QXGA(2048*1536) 13Mbps 5.7GB 137GB 960GTB 4TB QXGA(2048*1536) 9Mbps 4GB 95GB 665GTB 2.78TB UXGA(1600*1200) 8Mbps 3.5GB 84.4GB 591TB 2.47TB 1600*912 7Mbps 3.1GB 73.8GB 516TB 2.16TB 1280*960 6Mbps 2.6GB 63.3GB 443TB 1.85TB 720P(1280*720) 6Mbps 2.6GB 63.3GB 443TB 1.85TB VGA(640*480) 1.5Mbps 0.67GB 15.8GB 110.6TB 0.474TB 假如采用一个Epoch的数据量为8K一小时数据,数量100个,重复50次,读取需要26000G的数据,重复500次,则需要260000G数据。 高速以太网/IB交换机 10GbE-100GbE/100GbE-200GbE 节点间数据高速互通 充分实现低延迟,高带宽的高效网络 存储节点 4U服务器,冗余电源,性能稳定单台最高可支持600+TB容量 分布式存储系统,支持N+M纠删码或双/三副本等数据保护方式可扩展的架构,支持海量数据存储 动态在线扩展,容量和性能平滑扩增 海量数据存储 数据高可靠 高读写性能海量小文件性能无衰减 •分布式架构全对称式设计 •数千节点扩展能力 •存储容量可达EB级 •可选副本和纠删码机制 •N+M纠删码或双/三副本等 •灵活选择保障数据安全 •支持RDMA协议网络 •低延时高带宽传输网络 •高文件并发访问效率 •可扩展的元数据节点 •高效元数据检索策略 •亿级文件带宽及IO平稳 14 FP64 5.2teraFLOPS WWW.AMAXCHINA.COM©2021超益集伦®版权所有 FP64TensorCore 10.3teraFLOPS FP32 10.3teraFLOPS TF32TensorCore 82teraFLOPS|165teraFLOPS* BFLOAT16TensorCore 165teraFLOPS|330teraFLOPS* FP16TensorCore 165teraFLOPS|330teraFLOPS* INT8TensorCore 330TOPS|661TOPS* INT4TensorCore 661TOPS|1321TOPS* 媒体引擎 1个光流加速器(OFA)1个JPEG解码器(NVJPEG)4个视频解码器(NVDEC) GPU显存 24GBHBM2 互联 PCIeGen4:64GB/s第三代NVLINK:200GB/s 多实例GPU(MIG) 4个GPU实例,每个6GB2个GPU实例,每个12GBeach1个GPU实例,24GB 图像训练 图像推理 AI训练-吞吐量比v100高3倍,比T4高6倍AI推理-在实时图像分类中,吞吐量比T4高出3倍以 上 •双路第三代英特尔®至强®可扩展处理器 •2-4片TeslaGPU卡片 •16根DDR4DIMM •双千兆网口/万兆 塔式服务器(基础) •双路第三代英特尔®至强®可扩展处理器 •8-10片TeslaGPU卡片 •32根DDR4DIMM •双千兆网口/万兆 机架式服务器(进阶) GPU价格昂贵,是否被充分利用,有无闲置?GPU资源利用率是多少,是否能多个用户共享? Cuda、Cudnn版本众多、更新快,如何兼容? Tensorflow、PyTorch、MxNet众多框架如何选择、共存? 深度学习框架众多,训练如何可视化?如何做多机多卡训练?模型如何优化、如何部署并对外提供服务? 多个用户的环境和数据之间能否做到相互隔离?互相不冲突?针对大规模的神经网络,如何实现分布式训练?如何提高性能? 用户资源分配整体资源监控 创建私有数据空间自定义镜像空间 •容器化技术,快速部署 •兼容各种主流机器学习框架 •分布式和单机版训练,适应各种场景 •内置多种交互式开发工具 •细粒度的用户管理,满足用户多种需求 •分布式存储支持IB高速网络和RDMA,数据读写效率高 •自主知识产权、源代码自主管理 •7*24小时稳定运行 高速以太网交换机 10GbE-100GbE 节点间数据高速互通 充分实现低延迟,高带宽的高效网络 融合节点 2U服务器,支持ARM架构国产芯片或最新英特尔®至强®处理器每节点配置24块全闪存SSD,开启极致性能 可配置GPU,大幅提升异构计算力 安全稳定 •超融合架构 •双/三副本机制 便捷高效 • • 3节点即构建环境 自动化运维平台 开箱即用 •厂内调试预装 •用户开箱即用 异构兼容 •兼容x86/ARM等架构 •支持GPU等异构设备 对比项 液冷 风冷 散热原理 高导热材质平面贴合发热元件表面,将热量传导至水路,液体携带热量传输至冷却端,完成散热 高导热材质平面贴合发热元件表面,通过热管把热量分散在鳍片上,结合风扇完成散热 导热能力(相同环境条件下) 液体导热能力是空气的25倍(液体导热系数0.64,空气导热系数0.026)同体积液体带走的热量是同体积空气的3000倍 PUE 液冷系统通常比风冷系统节电20% 噪音 同等散热水平时,液冷系统噪音比风冷噪音降低10~15dB 散热能力 支持更大热流密度的芯片 支持有限范围热流密度芯片 体积 体积小,对机箱空间需求低 风冷散热器体积大,占据大量空间 安装 专业安装和检测 简易快捷 维护 提供专业维护工具,便于操作 维护简单 极致计算成就极致未来 WWW.AMAXCHINA.COM|400-860-6560