科创网 关注科创领域的新机会

NPU架构分析与应用:从定制化到通用化的演进历程

NPU(神经处理器单元)是一种专门用于加速深度学习应用的硬件。它可以在训练和推理过程中提供高效的计算能力,从而大大提高深度学习应用的性能。

当前市场上主流AI算力芯片,都存在几个共性问题,一是低算力问题:多针对3x3卷积优化,算法总体效率低;二是内存墙问题:PE存算分离数据难共享;三是能耗墙问题:数据重复搬移高耗能。

NPU的优势之一在于,大部分时间集中在低精度的算法,新的数据流架构或内存计算能力。与GPU不同,它们更关注吞吐量而不是延迟。

自研架构NPU可以做到从硬件角度使计算单元跟存储单元实现物理隔离,避免多个用户之间相互影响,保证每个用户的延时和吞吐,更好地提升芯片整体的利用率。

NPU的设计需求趋势是从偏计算走向偏存算的混合模式,以支持ADS算法的演进。

昆仑芯架构是完全自主设计和实现的,同时,灵活易用,软件栈非常完善;最后,规模部署,有多个产品并且实现了两万片以上的落地案例。

NPU可以通过一些特殊的硬件级优化,比如为一些真正不同的处理核提供一些容易访问的缓存系统,将其提升到另一个层次。这些高容量内核比通常的“常规”处理器更简单,因为它们不需要执行多种类型的任务。这一整套的“优化”使得NPU更加高效。

解压缩模块用于对权重数据的解压。在NPU编译器中会对神经网络中的权重进行压缩,在几乎不影响精度的情况下,可以实现6-10倍的压缩效果。

NPU专门负责实现AI运算和AI应用的实现。

昆仑芯2代相对于昆仑芯1代的优势在于高性能分布式AI系统和支持硬件的虚拟化。

在智能分析的场景中,比如车辆检测和车牌识别的应用,需要采用全分辨率、更高帧率检测的方式进行处理,对NPU的算力提出了非常高的要求。

版权说明:文章均为账号作者发布,不代表本网站观点与立场,如有侵权请联系我们删除

热门