市日场益对增加SoC中专用人工智能IP的需求 白皮书 作Ron者Lowman 新思科技DesignWareIP战略营销经理 序言 在过去十年间,设计人员开发了能够以足够快的速度运行高级深度学习数学运算的硅技术,以探索并实施对象识别、语音和面部识别等人工智能(AI)应用。如今,机器视觉应用通常比人类更精确,是推动新的片上系统(SoC)投资的关键功能之一,旨在满足AI的发展,以满足日常应用需求。通过在视觉应用中使用卷积神经网络(CNN)和其他深度学习算法,这产生了巨大的影响,使SoC中的AI功能变得越来越普遍。Semico在2018年AI报告中对此总结到:“...几乎每种类型的芯片都拥有一定程度的AI功能,而且这一势头将持续保持。” 除了视觉之外,深度学习还被用于解决复杂问题,例如蜂窝通信基础架构中的5G网络实施,以及通过配置、优化和修复自身的能力而简化5G操作任务,也就是大众所知的自组织网络(SON)。5G网络将带来更大的复杂度,包括波束赋形、毫米波中的更多频谱、载波聚合和更高的带宽,所有这些都需要机器学习算法在分布式系统中妥善优化和处理数据。 AI加速无处不在,它增加各种应用的价值。每个人都在添加某种形式的人工智能,在不依赖人类交互的情况下做更多的事情,但这些算法的类型各不相同,因此,这些算法使用的加速器也不同。其中包括传统上用于成像和物体检测的加速器。在时间比较重要的文本和演讲中,循环神经网络能够加入时间。除此之外,深度神经网络还有其他形式,例如脉冲神经网络和胶囊神经网络。 目前为AI开发的半导体有两种。独立加速器以某种方式连接到应用处理器,并且有一些应用处理器在设备上添加了神经网络硬件加速。独立加速器可以通过芯片与芯片的互连而实现了将硬件扩展到多个芯片的巨大创新,从而实现最高性能,或者利用独特的in-memory和near-memory计算技术而减少能耗需求。设备上的AI加速正在通过利用处理器和架构对他们的神经网络处理器进行升级,这些处理器和架构是独立半导体的先驱。 半导体领导者、行业巨头和数百家初创公司都在全力将AI能力推广到各个行业的大量新型SoC和芯片组中,涵盖从云服务器组到每个厨房中的家庭助理等所有环节。 synopsys.com AI市场细分 深度学习神经网络用在许多不同的应用中,为使用它们的人提供了强大的新工具。例如,它们可以用于高级安全威胁分析、预测和预防安全漏洞,以及通过预测潜在买家的购物流程而帮助广告商识别和简化销售流程。这是在融合最新GPU和AI加速器半导体技术的服务器群中运行的数据中心应用的两个实例。 但AI设计并未包含在数据中心内(见图1)。许多新功能可基于传感器输入的组合而了解发生的情况,例如用于对象和面部检测的视觉系统,用于改进人机接口的自然语言理解以及上下文感知)。这些深度学习能力已添加到所有行业的SoC中,包括汽车、移动、数字家庭、数据中心和物联网(IoT)。 CloudAI A ccelerator Datacenters EdgeComputingAIAccelerator On-DeviceAI EdgeDeviceAccelerator Edgeservers Acceleratorcards Automotive DigitalTV Voiceassistants Cameras Mobile&AR/VR IoT/AIoT 5nm7nm12nm 5nm7nm12nm 12nm22nm 7nm12nm 7nm12nm 7nm12nm22nm40nm 7nm12nm22nm 5nm7nm12nm 22nm40nm PerformanceinTOPS/W PerformanceinTOPS ModelCompression 图1:AI的主要市场细分 为实现最高性能,针对云AI加速的SoC设计人员致力于最大限度地提升性能以解决重大问题。执行AI训练以及为了得到最高准确度而需要的最复杂的AI算法,需要很高的处理器运算能力(TOPS),这最终可通过缩短训练时间而降低成本,并减少推理过程所需的能耗。云计算市场的这些半导体硬件创新使人们认为可能需要花费数年开发才能完成的工作成为可能,并缩短了取得突破的时间,例如,以识别和疫苗开发的形式找到当前最令人担忧的健康问题的治疗方法。 然而,并非所有问题都可以在云端解决,因此,许多AI加速器架构经过修改,可支持边缘计算和设备端AI。在边缘服务器和插入式加速卡中,成本和功耗更加重要。随着我们越来越靠近并进入数据收集点的应用“边缘设备加速器”,单位能耗性能的优化成为最高设计要求。 边缘设备加速器的资源、处理和内存有限,因此,经过训练的算法需要压缩和裁剪,以满足功耗和性能的要求,同时保证所需的准确性。最大的AI细分市场是设备端AI,它会影响多种应用,例如汽车ADAS、数字电视的超高图像分辨率、音频和语音识别以及智能音箱中的语言理解。这类应用包括执行面部检测、面部识别和物体识别的摄像头。例如,在某些行业中,摄像头中的设备端AI可对工业应用执行缺陷分析。设备端AI类别还包括消费类应用,例如手机和AR/VR耳机,这些应用可实现前面提到的许多AI功能,例如导航、超高图像分辨率、语音理解、对象/面部检测等,而且所有这些都在小巧的体积中实现。 移动设备通过最新的工艺节点而持续在工艺中保持领先地位,这与用于云计算的工艺节点类似。边缘和设备端计算不断优化性能。根据市场的不同,可以采用传统工艺节点,如图1所示。 AI市场正高速发展 DeepLearningChipsetRevenuebyPowerConsumption,WorldMarkets:2018-2025 $80,000 High(>100W) $70,000 Medium(5-100W) $60,000Low(<5W) $50,000 $40,000 $30,000 $20,000 $10,000 $- 20182019202020212022202320242025 Source:Tractica ($Millions) 2020年,AI市场仍处于初期阶段,并有望在未来几年内快速增长(见图2)。大于100W的云AISoC厂商包括市场领导者NVIDIA和Intel。通过先发优势,这些厂商占据了主导地位。大量初创企业希望在效率方面比这些解决方案高出多倍。此外,Google、TPU、阿里巴巴、亚马逊和百度等系统公司也设计自己的芯片,并通过优化而支持其业务模式。所有这些公司都为客户提供云出租服务,使客户能够在云端进行培训和推理。 图2:AI芯片组市场的增长(按功耗计算) 边缘计算(>5W)SoC通常利用现有的云解决方案,或者经过修改的云架构,但是许多初创企业通过更低功耗和更优化的解决方案而找到了自己的市场位置,同时在性能上远远超越当今的解决方案。 在图2中,5W以下市场包括设备端和独立加速器,通常称为AIoT加速器,这一市场正在迅速发展。对于设备端解决方案,移动市场在出货量方面占主导地位,而汽车市场也在快速增长,例如TeslaASIC。在低于5W的市场中,AIoT加速器仍然只占很小的比例,但Perceive、Kneron、Gyrfalcon、Brainchip和GrAIMatterLabs等公司都在试图突围。 AI市场挑战 每个AI市场细分都有不同的目标和挑战。云AISoC设计人员注重缩短昂贵的训练时间,同时适应可包含80亿个甚至更多参数的最复杂的新算法。边缘计算AI设计更注重降低功耗和延迟。5G和设备端AI旨在实现低延迟,但对于5G,这些AI并不用于压缩模型,因为这可能是非常昂贵且耗时的设计过程。对于设备端AI,您需要通过压缩模型,最大程度优化功能和性能的推理。最后,AIoT独立加速器设计人员使用更多创新技术,并且往往是TOPS/W的领导者。在提高密度,缩短延迟,以及应对存储系数的波动方面,他们承担着更多的风险,而且他们还是裁剪和压缩算法以及为客户实施算法的专家,提供了独特的差异化能力。 除这些独特的挑战外,AI市场也面临着一系列核心挑战,包括: •添加专门的处理能力,可以更高效地执行必要的数学运算,例如矩阵乘法和点积 •高效的内存访问,可处理深度学习所需的唯一系数,例如权重和激活 •可靠且经过验证的实时接口,用于芯片到芯片、芯片到云端、传感器数据以及加速器到主机的连接 •保护数据并防止黑客攻击和数据损坏 专业处理 添加神经网络能力的SoC必须适应异构矩阵和大规模并行矩阵乘法。异构组件需要标量、矢量DSP和神经网络算法能力。例如,机器视觉的每个阶段都需要不同类型的处理。 预处理需要更简单的数据级并行性。选定区域的精确处理需要更复杂的数据级并行性,可以通过具有良好矩阵乘法运算能力的专用CNN加速器有效地处理。决策阶段通常可以通过标量处理的方式来处理。每个应用都是独一无二的,但很明显的是,包括神经网络算法加速的异构处理解决方案需要有效地处理AI模型。 内存性能 AI模型使用大量内存,这增加了芯片的成本。训练神经网络可能需要几GB到10GB的数据,这需要使用最新的DDR技术,以满足容量要求。例如,作为图像神经网络的VGG-16在训练时需要大约9GB的内存。更精确的模型VGG-512需要89GB的数据才能进行训练。为了提高AI模型的准确性,数据科学家使用了更大的数据集。同样,这会增加训练模型所需的时间或增加解决方案的内存需求。由于需要大规模并行矩阵乘法运算以及模型的大小和所需系数的数量,这需要具有高带宽存取能力的外部存储器。新的半导体接口IP,如高带宽存储器(HBM2)和未来的衍生产品(HBM2e),正被迅速采用,以满足这些需求。先进的FinFET技术支持更大的片上SRAM阵列和独特的配置,具有定制的存储器到处理器和存储器到存储器接口,这些技术正在开发中,目的是更好地复制人脑并消除存储器的约束。 AI模型可以压缩。这种技术是确保模型在位于手机、汽车和物联网应用边缘的SoC中受限的存储器架构上运行所必需的。压缩采用剪枝(pruning)和量化(pruning)技术进行,而不降低结果的准确性。这使得传统SoC架构(具有LPDDR或在某些情况下没有外部存储器)支持神经网络,然而,在功耗和其他方面需要权衡。随着这些模型的压缩,不规则的存储器存取和不规则的计算强度增加,延长了系统的执行时间和延迟。因此,系统设计人员正在开发创新的异构存储器架构。 实时数据连接 一旦AI模型经过训练并可能被压缩,就可以通过许多不同的接口IP执行实时数据的运算。例如,视觉应用由CMOS图像传感器支持,并通过MIPI摄像头串行接口(CSI-2)和MIPID-PHYIP连接。LiDAR和雷达可通过多种技术支持,包括PCIExpress和MIPI。麦克风通过USB、脉冲密度调制(PDM)和I2S等连接传输语音数据。数字电视支持HDMI和DisplayPort连接,以传输视频内容,而这些内容可通过神经网络传输后得到改善,实现超高图像分辨率,从而以更少的数据生成更高质量的图像。许多(甚至是大多数)电视制造商正在考虑部署这项技术。 混合AI系统是另一个预计会大量采用的概念。例如,心率算法通过健身带上的AI识别异常,甚至假阳性,该健身带可将信息发送到云端,用于对异常进行更准确的深入AI神经网络分析,并提示适当的动作。这类技术已经成功地用于电网负载的平衡,特别是在电线中断或出现意外重负荷的情况下。为了支持快速、可靠的网络与云端连接,上述示例中的聚合器需要以太网连接。 安全 AI在安全漏洞方面提出了新的挑战。AI的数据往往是私有的,所开发的算法非常昂贵,并且就最终结果的准确性而言,仅破坏一个比特的数据就有可能带来灾难性的后果。SoC和系统设计需要保护训练数据、训练后的算法、敏感的私人信息以及操作的完整性。实施完整的信任根子系统或安全领域可能带来很大的价值,但也可能需要进行额外的咨询,以确保基于早期开发的SoC流程定义的威胁配置来防止特定的违规行为。 AISoC设计解决方案