智能边缘计算正在改变我们的生活,它使得智能设备无处不在,从智能家居到自动驾驶汽车,从工业设备到体育场,从个人计算到智慧城市。边缘智能设备产生的数据量巨大,对设备智能和隐私保护有强烈需求。边缘智能设备越来越强大,新兴的高性能、低功耗、低成本 AI ASIC正在推动这一领域的发展。然而,如何在设计空间中找到最佳配置以平衡模型准确性和延迟响应不一致是一个挑战。本文通过测量研究回答了以下三个问题:1. 什么是行为特征显示对设计空间中配置的 OP 变化和内存访问的延迟响应不一致?2. 什么是根本原因对于这些意想不到的特性?3. 什么是影响这些特征的高效的神经网络设计?本文在7个边缘AI平台上进行了分析,包括TFLite、TF Lite、SNPE、TF Lite、OpenVINO、KNN、NNCA和CASE。通过测量工具皮质、中央处理器、肾上腺素GPU、数字信号处理器、边缘热塑性聚氨酯、视觉处理器、NPU和KPU,涵盖了设计尺寸、运算符/块类型、元素方面、激活、块、内核大小、步幅、通道数、精确度等设计参数。本文发现更多的Conv通道会增加延迟,这是因为输入张量被填充以充分利用硬件数据级并行性,包括CPU上的SIMD单元、DSP上的矢量单元和GPU上的SIMT等。