a – 为什么NPU比GPU更适合AI加速计算


今天咱们聊聊NPU。

大家对于CPU、GPU这些常见计算单元已经比较了解,但是对于NPU却可能并不清楚它的工作原理和具体作用。

为什么NPU比GPU更适合AI加速计算

NPUNeural Network Processing Unit,也就是神经网络处理器,从命名就可以看出它是专门应用于AI领域的计算单元。因此相对于CPU、GPU这些通用计算单元而言,NPU理论上是一种无需通用化的特型计算单元,也就是只做好“AI加速”这一件事情就可以了。

虽然目前对于NPU的开发和利用还处于极为初级的阶段,应用方面也只是摄像头背景虚化、降噪等少数一些功能会用到。但实际上NPU自身的计算架构设计特性,决定了它具备比GPU更快的AI计算加速能力。

要理解这一点,首先肯定是要了解NPU究竟是如何从硬件层面对神经网络实现加速的?

Meteor Lake,也就是第一代酷睿Ultra,是英特尔首个集成NPU的处理器。从NPU架构设计可以看到,它的核心是两个神经计算引擎,而核心中的核心是两组MAC阵列(Multiplier and Accumulation)

为什么NPU比GPU更适合AI加速计算

我们都知道,AI大模型推理计算简单来说就是在反复做矩阵乘法与加法,其计算结果率先生成预测数据,并通过不断计算让预测数据与真实数据实现最大程度的拟合,以缩小预测数据与真实数据之间的差异,进而最终推理出结果并在用户侧生成所谓的答案。MAC阵列就是为此而生,因此MAC阵列越多乘法与加法计算的速度就越快计算速度越快拟合的过程就会不断提速,最终反映在应用端的就是AI大模型的生成速度加快。

最新的Lunar Lake,也就是第二代酷睿Ultra处理器,NPU中的神经计算引擎增加到了6个MAC阵列也随之扩充到了6组,理论算力提升3倍。但由于目前大模型推理的主要负载都在GPU上,所以NPU的加速优势暂时无法得到体现。

为什么NPU比GPU更适合AI加速计算

那么为什么NPU更适合做AI计算加速呢?

我们先来看看GPU是如何做矩阵计算的。

以简单的4×4矩阵乘法为例,矩阵中的每一行每一列的每一个数都要进行16次乘法,所以总计需要进行16×4=64次乘法计算,同时,每一行每一列的每一个数乘完之后都要做一次加法,所以总计算需要进行16×3=48次加法计算。而GPU和NPU计算加速,本质上就是想办法去提升这64次乘法和48次加法计算的速度。

为什么NPU比GPU更适合AI加速计算

那么GPU与NPU在计算时有何不同呢?

首先GPU最擅长的就是做并行计算。其内部有多个可以同时工作的乘法与加法计算单元。虽然并行计算速度非常快,且能够同时完成多个计算任务,但每一次计算之前,都需要先把数据加载到缓存内之后GPU控制器会从缓存中把数据取出来放入乘法计算器计算出结果然后再把结果放回缓存中之后控制器再把计算结果放入加法计算器中求和之后再将结果放回缓存最后再将前面求出的和放到加法计算器中求和,这个结果才是一次乘加计算的最终结果。

为什么NPU比GPU更适合AI加速计算

举个例子,如果想要计算a11=3×2+2×2+4×1+5×4这个算式,首先需要把这些数读入上图所示意的缓存中,之后读取到乘法器中,分别计算3×2、2×2、4×1以及5×4这四个乘法的结果,再将其结果6、4、4、20四个数放回缓存。我们将这一过程的指令定义为【指令1:乘法】

为什么NPU比GPU更适合AI加速计算

之后将6、4、4、20四个数放入加法计算器,求出6+4、4+20的和,并将10和24放回缓存。这一过程的指令为【指令2:加法】

最后将10和24放入加法计算器,求出10+24的和34,这一过程的指令为【指令3:加法】

那么如果想要完成4×4矩阵计算,就需要把上述过程再“复制”15次,就可以完成这一矩阵计算任务。也就是说用GPU计算4×4矩阵的话,只需要3条指令即可完成,速度其实已经非常快了。

但从描述中可以看到,想要进行一次简单的4×4乘法与加法矩阵计算,就需要经历:缓存-乘法计算器-缓存-加法计算器-缓存-加法计算器这一系列计算步骤。如果是更大矩阵的计算,那么速度变慢是必然的。比如满血DeepSeek-R1的参数量达到了671B,也就是6710亿参数,想要在如此庞大的数据参数量里做矩阵乘法与加法,硬件性能压力可想而知。

那么有没有比“3条指令”更快的方法呢?

其实聪明的朋友一定发现了,GPU每次计算都要在计算器与缓存器之间将数据来回搬运,如果简化这个步骤,那么速度岂不是就加快了?

没错,NPU的计算架构思路就简化了每次计算都要存取缓存的设计。

如下图所示,NPU的计算阵列利用新建的管道(橙色示意),将乘法器和加法器直接相连,此时乘法器计算完的中间结果就会通过管道直接流入加法器进行加法计算,之后再将结果流入加法器进行最终的加法计算,这样只需要一条指令,即可完成整个乘法到加法的计算过程。

为什么NPU比GPU更适合AI加速计算

当然,GPU和NPU的计算架构设计并无严格意义上的优劣之分。

GPU是通用计算单元,其计算器设计思路能够满足计算公式的自由构建。

NPU是专用计算单元不需要那么高的灵活性,所以人为加入管道之后,只做特定公式计算就可以。

比如,GPU可以做a×b+c×d×e×f或a×b+c×d×e+f等等这样不同的公式计算,但NPU大都只能计算a×b+c×d+e×f这种公式。

当然,英特尔、AMD、苹果设计的NPU可能会有不同的计算器架构,如乘-加-乘或乘-加乘-加乘等等,排列组合方式不同决定了内部数据流动的方式有所差异。另外不同的计算架构设计、不同规模的计算矩阵也会决定其擅长计算哪种数据类型。比如我们常提到的FP16、INT8、INT4等,计算速度就与乘加计算器架构的设计和矩阵规模直接关联。

如下图所示,同样是FP16精度的计算,A100矩阵规模远小于H100,所以后者的计算速度自然就更快。

为什么NPU比GPU更适合AI加速计算

此外,AI时代的GPU与NPU等计算单元已经与传统意义上的GPU、NPU有所区隔。比如N卡中的TensorCore,实际上就是专用于AI计算的矩阵单元。而某些NPU计算单元除了包含专用于AI计算的矩阵阵列之外,还会融合向量、标量计算单元甚至CPU核心,从而可以更好地满足AI计算时不同的算子需求。

本文属于原创文章,如若转载,请注明来源:为什么NPU比GPU更适合AI加速计算https://nb.zol.com.cn/976/9769370.html





nb.zol.com.cn
true

https://nb.zol.com.cn/976/9769370.html
report
4454
今天咱们聊聊NPU。大家对于CPU、GPU这些常见计算单元已经比较了解,但是对于NPU却可能并不清楚它的工作原理和具体作用。NPU即Neural Network Processing Unit,也就是神经网络处理器,从命名就可以看出它是专门应用于AI领域的计算单元。因此相对于CPU、GPU这些通用计算单…

Leave a Reply

Your email address will not be published. Required fields are marked *

Related Post

a – 2025年了 U盘装系统这项技能还有必要学吗

【ZOL中关村在线原创技巧应用】曾几何时,只要略懂一些电脑知识,制作系统安装U盘、重装系统这些技能基本就是必备技能。不过,近几年手机成为大家最常用的数码产品后,不少用户连解压缩文件这种操作也不知道。那么,U盘装系统这项技能,放在2025年还有必要学吗? 我先抛出观点:对于大部分用户来说,没有必要。主要有三个原因。 第一,越来越多的用户更接受笔记本、品牌机、DIY整机,而这些产品都预装系统。我们需要面对的一个现实是,DIY的黄金时期已经过去。如今的用户,更倾向于开箱即用,而不是自己动手。毕竟对于大多数用户来说,组装电脑是一件门槛高且无趣的过程(当然,我觉得很有趣),而且可能面临很多不知如何解决的问题。换位思考一下,如果让我去学习化妆,我也会觉得毫无意义(直男勿喷)。大家宁愿多花钱,或者付费找相关人员进行组装,也不愿意自己动手。 第二,自己动手组装电脑的成本优势已经很小了,自然对于安装系统的需求也会变低。以往大家自己动手组装电脑,一个很重要的原因是,成本会比整机便宜非常多。而近几年的情况是,DIY整机、品牌机的价格已经非常低了,甚至比我们自己购买相同硬件还低。成本优势的缺失,让动手组装电脑成为一件爱好者自娱自乐的事情。更多的用户还是倾向于成本接近,但更省事的整机。 第三,Windows 11系统有着完备的系统重置功能。不得不承认的一件事是,我作为一名PC爱好者,遇到无法修复的蓝屏等系统问题,也更倾向于系统重置,而不是系统重装。Windows 11的系统重置功能确实非常完善,整个过程的耗时也不算特别长,体验很好,这让系统安装U盘的价值进一步降低。我手里的系统盘,已经有一年多没有用过了。 当然,以上三个原因针对的是大部分用户。对于喜欢PC硬件,或者想要自己动手组装电脑的朋友,系统U盘可以说是“我可以不用,但它不能没有”的存在。 比如追求极致性价比或者追求超高颜值的用户,DIY几乎是唯一的途径。我曾经组装过一台主机,其中的大部分硬件都是在二手平台上淘的,相比全新的硬件,成本低非常多,这种需求下,一个系统U盘就非常有必要。或者追求超高颜值主机的用户,往往对于机箱造型、风扇、水冷等部件有较高的要求,这时候就需要精心挑选相关硬件,组装完成后也需要一个系统U盘安装系统。 总结,如果你不是一名PC、DIY相关数码产品的爱好者,那么其实没有必要了解如何制作系统U盘,怎么安装系统这些技能,99%的情况是,你会选择一款笔记本或者整机,而不是自动动手组装,这些产品基本都会预装Windows系统。即使预装的不是Windows系统,官方服务人员也会帮你搞定。后续使用遇到系统问题,也能够通过系统重置功能解决。遇到无法解决的系统问题的概率是很低的。 而对于PC、DIY相关数码产品的爱好者,或许系统U盘在一年之内也用不上一次,但只要你还有这份热爱,相信我,制作系统U盘、安装系统这些技能肯定是能用的上的。我也相信,整个操作过程对你来说没有任何难度。 另外,如果大家觉得U盘装系统很有必要的话,可以在评论区留言。如果呼声很高,我会出几期详细的安装Windows系统的教程。 本文属于原创文章,如若转载,请注明来源:2025年了 U盘装系统这项技能还有必要学吗https://nb.zol.com.cn/992/9922085.html 纠错与问题建议标签:操作系统 https://nb.zol.com.cn/992/9922085.html nb.zol.com.cn true 中关村在线 https://nb.zol.com.cn/992/9922085.html report 2469 【ZOL中关村在线原创技巧应用】曾几何时,只要略懂一些电脑知识,制作系统安装U盘、重装系统这些技能基本就是必备技能。不过,近几年手机成为大家最常用的数码产品后,不少用户连解压缩文件这种操作也不知道。那么,U盘装系统这项技能,放在2025年还有必要学吗?我先抛出…

a – 固态硬盘最好别分区?这些硬盘分区误区你需要知道

【ZOL中关村在线原创技巧应用】如果用过Windows XP的用户,可能对以前的硬盘分区有印象,那就是大家往往喜欢将一块硬盘分成C、D、E、F四个分区,除了C盘外,其他盘分别命名成“资料”、“软件”、“办公”等。如今,可能一些朋友看到,或者听到,固态硬盘分区太多的话,会加速硬盘老化。那么,硬盘到底应该怎么分区才是对的? 我们首先要明白,为什么有些人坚持说固态硬盘分区太多的话,会降低硬盘寿命。先明确,这种说法是没有根据的,但可以找到出现的原因。 如果你把一个容量为1TB的机械硬盘分成两个500GB的分区,那么你往第一个分区里写数据,第二个分区始终是闲置的。因为机械硬盘内部主要结构是盘片和磁头,分区相当于把盘片进行物理区分,你往第一个分区里写数据,磁头就会移动到第一个分区对应的盘片位置,而第二个分区对应的位置则不会进行读写操作。 来到固态硬盘时代,不少朋友将上面的知识直接拿了过来。认为将一个1TB的固态硬盘分成两个500GB,如果只往第一个分区写数据,那么只会磨损对应的闪存颗粒,相当于固态硬盘的寿命相当于减半。要是分成4个分区,那寿命只有25%了。 事实并非如此,固态硬盘所有数据存储都是由主控决定的。它不再是将数据按照闪存排布的顺序进行存储。它是根据多个因素进行分配的,其中一个很重要的因素是闪存的磨损情况。所以即使你将固态硬盘分区,往一个分区里写数据,这个过程也是全盘写入。 所以说,固态硬盘时代流畅的分区过多会加速硬盘老化,是不正确的。但是,我还是不建议大家将一个固态硬盘分成太多分区,原因主要有2个。 第一,分区太多容易造成容量浪费。比如一个500GB的固态硬盘,如果C盘分300GB,D盘和E盘各100GB,如果D盘存储文件后的容量只有10GB,万一需要存储一个11GB的文件,那只能往E盘里存了,无形之中就让这10GB的容量浪费掉了。 第二,分区太多容易让存储的文件过于分散。相信不少朋友分区是为了方便整理资料,但如果一个盘的容量存放不下的话,就会出现一个类型的资料存储在多个分区中,后续整理起来会非常麻烦。其实方面整理资料的需求,完全可以通过文件夹的方式解决,整理资料也更加方便,移动文件基本秒实现,没有必要将硬盘分区。 按照我个人的经验,256GB及以下容量的固态硬盘就不要分区了,512GB左右的硬盘可以不分区,也可以分2个,即C盘和D盘。1TB的固态硬盘分2个分区是合适的。2TB以上就看自己的需求和心情了,毕竟容量足够大。 分区的方法也非常简单,甚至不需要安装第三方软件。以Windows 11为例,在开始菜单上右击,选择磁盘管理,这时候就能看到安装的硬盘。在需要分区的硬盘位置右击,选择压缩卷,然后在跳出的对话框中输入想要分出的容量,它是以MB为单位的,一般我们按GB来算,所以输入的时候,需要在目标GB上×1000。比如想要分出120GB的容量,可以输入120000,这样就会出现一个大约118GB的新分区。此时新分区还是黑色的,显示未分配,右击选择新建卷,然后一路点下一步就可以了。 总结,固态硬盘最好别分区,分区过多会降低寿命,这种言论大家最好别信。由于固态硬盘的特性,向某一分区内写数据,其实就是向全盘写数据,不存在因分区降低寿命的情况。所以大家使用固态硬盘的时候,其实想分多少区就可以分多少。不过,从数据整理的角度来看,不建议有太多分区,其实有整理资料的需求,可以通过文件夹的方式实现。 本文属于原创文章,如若转载,请注明来源:固态硬盘最好别分区?这些硬盘分区误区你需要知道https://nb.zol.com.cn/983/9834857.html 纠错与问题建议标签:固态硬盘 https://nb.zol.com.cn/983/9834857.html nb.zol.com.cn true 中关村在线 https://nb.zol.com.cn/983/9834857.html report 2683 【ZOL中关村在线原创技巧应用】如果用过Windows XP的用户,可能对以前的硬盘分区有印象,那就是大家往往喜欢将一块硬盘分成C、D、E、F四个分区,除了C盘外,其他盘分别命名成“资料”、“软件”、“办公”等。如今,可能一些朋友看到,或者听到,固态硬盘分区太多的话,…

a – 小白必看 笔记本如何升级内存和硬盘

【ZOL中关村在线原创技巧应用】如今游戏本市场有一个很普遍的情况,那就是绝大多数机型内部有两个内存插槽和两个硬盘插槽,不少购买16GB内存+512GB硬盘的朋友可能觉得不够用,我们应该如何升级内存和硬盘呢? 首先我们需要明确的是,升级内存和硬盘最好的选择就是拿着机器和自己购买的内存硬盘,通过官方售后的方式进行升级。这种做法虽然需要花钱,但最稳妥。毕竟拆机这样的操作,对于绝大多数朋友来说还是有点危险。当然,如果你的笔记本已经过保,或者觉得自己的动手能力不错,说什么也不去售后的话,那么下面就和大家说一下,如何升级内存和硬盘。 第一件事就是要确定自己的笔记本是不是支持升级,以及支持的规格。推荐直接找官方客服咨询,一般情况下,他们会给到非常准确的答案。其次是找评测、拆机等内容,一般也会提到内存、硬盘的情况。 当然,自己也能够简单通过软件进行判断。比如在任务管理器的内存一栏,如果外形规格部分标注SODIMM,就代表内存可更换。如果出现Row of chips或芯片排等,就代表是板载内存。SODIMM的上面还有已使用的插槽,代表内部有几个插槽,已经用了几个。上面还有内存的频率。硬盘支持的话很难通过软件去判断,还是推荐大家找官方客服,这是最稳妥的做法。 接下来,根据已经得到的内存和硬盘信息,购买对应的版本。同时准备拆机工具,包括螺丝刀、撬棒、除静电手环、M.2硬盘的螺丝。如果需要更换硬盘的话,还需要准备系统U盘等。 准备稳妥后,接下来就是拆机。这部分建议参考别人的拆机视频。如果有同一机型的话最好不过了,可以照着教程拆。如果没有的话,可以多看几个笔记本的拆机视频,注意拆机的技巧,特别是同品牌同系列的机型,往往拆机步骤是一致的。 拆机的时候注意一点,那就是防止静电问题。可以佩戴除静电手环,将机器放置在专门的垫子上,也可以放在鼠标垫上。后壳可能比较难拆,注意一定不要大力出奇迹,很容易将后壳的卡扣掰断。拆开后首先就是要断开电池与主板的连接。 之后寻找内存和硬盘的位置,这是比较好找的。先说内存,对准内存金手指上的缺口,然后将内存倾斜大约30-45°左右,斜插进内存插槽。插到底之后,轻轻一按,听到咔哒一声,此时内存插槽两侧的金属卡扣会扣住内存两侧的缺口。此时内存就安装成功了。 硬盘的安装也简单,目前M.2的硬盘是主流,咱们就以M.2硬盘为例。M.2硬盘的安装同样需要倾斜,但倾斜角度不用像内存那么大。对准金手指缺口后,倾斜一点插入即可,把尾部翘起来的部分按下去,然后拧上M.2硬盘的螺丝,就可以了。 整个过程是不是非常简单。 安装完之后,把电池的排线插在主板上,盖上后盖。先别着急拧上螺丝,开机看看内存和硬盘是否已经识别。这时候第一次开机的时间会比较长,有些机型会提示你内存变化,需要按下某个按键继续,这时候大家根据屏幕提示操作就可以。 开机后,通过任务管理器看一下内存容量是否足够。硬盘的话,情况分两种。如果是全新的硬盘,那么资源管理器中是看不到的,需要我们在开始菜单上右击,选择磁盘管理,正常情况下会看到一个黑色的长条,右击新建硬盘驱动器就可以了。如果不是全新的硬盘,以前存储过数据,那么此时资源管理器中能够立刻看到硬盘。 确定无误之后,关机,将后盖的四周按实,保证所有卡扣都扣上,再拧上螺丝就可以了。 以上就是安装内存和硬盘的简单教程,其实整个过程并不复杂,重要的是要有耐心,切勿大力出奇迹。当然,还是推荐大家去售后解决,虽然花钱,但绝对安全。自己动手的话,一定要找客服问清楚内存和硬盘的版本,别买错规格,自己动手的时候一定要小心,不要着急。只要没有错误的操作,安装内存和硬盘其实是一件非常容易的事情。 本文属于原创文章,如若转载,请注明来源:小白必看 笔记本如何升级内存和硬盘https://nb.zol.com.cn/979/9791604.html 纠错与问题建议标签:笔记本电脑 https://nb.zol.com.cn/979/9791604.html nb.zol.com.cn true 中关村在线 https://nb.zol.com.cn/979/9791604.html report 2932 【ZOL中关村在线原创技巧应用】如今游戏本市场有一个很普遍的情况,那就是绝大多数机型内部有两个内存插槽和两个硬盘插槽,不少购买16GB内存+512GB硬盘的朋友可能觉得不够用,我们应该如何升级内存和硬盘呢?首先我们需要明确的是,升级内存和硬盘最好的选择就是拿着机器…