首页 / 科技业界

NPU架构分析与应用：从定制化到通用化的演进历程

科技业界 • 发布时间：2023-05-31 15:00:45

NPU（神经处理器单元）是一种专门用于加速深度学习应用的硬件。它可以在训练和推理过程中提供高效的计算能力，从而大大提高深度学习应用的性能。

当前市场上主流AI算力芯片，都存在几个共性问题，一是低算力问题：多针对3x3卷积优化，算法总体效率低；二是内存墙问题：PE存算分离数据难共享；三是能耗墙问题：数据重复搬移高耗能。

NPU的优势之一在于，大部分时间集中在低精度的算法，新的数据流架构或内存计算能力。与GPU不同，它们更关注吞吐量而不是延迟。

自研架构NPU可以做到从硬件角度使计算单元跟存储单元实现物理隔离，避免多个用户之间相互影响，保证每个用户的延时和吞吐，更好地提升芯片整体的利用率。

NPU的设计需求趋势是从偏计算走向偏存算的混合模式，以支持ADS算法的演进。

昆仑芯架构是完全自主设计和实现的，同时，灵活易用，软件栈非常完善；最后，规模部署，有多个产品并且实现了两万片以上的落地案例。

NPU可以通过一些特殊的硬件级优化，比如为一些真正不同的处理核提供一些容易访问的缓存系统，将其提升到另一个层次。这些高容量内核比通常的“常规”处理器更简单，因为它们不需要执行多种类型的任务。这一整套的“优化”使得NPU更加高效。

解压缩模块用于对权重数据的解压。在NPU编译器中会对神经网络中的权重进行压缩，在几乎不影响精度的情况下，可以实现6-10倍的压缩效果。

NPU专门负责实现AI运算和AI应用的实现。

昆仑芯2代相对于昆仑芯1代的优势在于高性能分布式AI系统和支持硬件的虚拟化。

在智能分析的场景中，比如车辆检测和车牌识别的应用，需要采用全分辨率、更高帧率检测的方式进行处理，对NPU的算力提出了非常高的要求。

版权说明：文章均为账号作者发布，不代表本网站观点与立场，如有侵权请联系我们删除